論文の概要: A Gift from the Integration of Discriminative and Diffusion-based Generative Learning: Boundary Refinement Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.01573v1
- Date: Wed, 02 Jul 2025 10:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.152452
- Title: A Gift from the Integration of Discriminative and Diffusion-based Generative Learning: Boundary Refinement Remote Sensing Semantic Segmentation
- Title(参考訳): 分別と拡散に基づく生成学習の統合によるギフト:境界微細化リモートセンシングセマンティックセマンティックセマンティックセマンティックセグメンテーション
- Authors: Hao Wang, Keyan Hu, Xin Guo, Haifeng Li, Chao Tao,
- Abstract要約: 本稿では,IDGBRフレームワークにおける識別学習と生成学習の統合を提案する。
フレームワークはまず、識別バックボーンモデルを用いて粗いセグメンテーションマップを生成する。
この地図と原画像とを条件付きガイダンスネットワークに入力し、ガイダンス表現を共同で学習する。
- 参考スコア(独自算出の注目度): 8.690665954055476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing semantic segmentation must address both what the ground objects are within an image and where they are located. Consequently, segmentation models must ensure not only the semantic correctness of large-scale patches (low-frequency information) but also the precise localization of boundaries between patches (high-frequency information). However, most existing approaches rely heavily on discriminative learning, which excels at capturing low-frequency features, while overlooking its inherent limitations in learning high-frequency features for semantic segmentation. Recent studies have revealed that diffusion generative models excel at generating high-frequency details. Our theoretical analysis confirms that the diffusion denoising process significantly enhances the model's ability to learn high-frequency features; however, we also observe that these models exhibit insufficient semantic inference for low-frequency features when guided solely by the original image. Therefore, we integrate the strengths of both discriminative and generative learning, proposing the Integration of Discriminative and diffusion-based Generative learning for Boundary Refinement (IDGBR) framework. The framework first generates a coarse segmentation map using a discriminative backbone model. This map and the original image are fed into a conditioning guidance network to jointly learn a guidance representation subsequently leveraged by an iterative denoising diffusion process refining the coarse segmentation. Extensive experiments across five remote sensing semantic segmentation datasets (binary and multi-class segmentation) confirm our framework's capability of consistent boundary refinement for coarse results from diverse discriminative architectures. The source code will be available at https://github.com/KeyanHu-git/IDGBR.
- Abstract(参考訳): リモートセンシングセマンティックセグメンテーションは、画像内の地上オブジェクトと位置の両方に対処する必要がある。
その結果、セグメンテーションモデルは、大規模パッチ(低周波情報)の意味的正当性を保証するだけでなく、パッチ間の境界の正確な局所化(高周波情報)を保証する必要がある。
しかし、既存のほとんどのアプローチは差別的学習に大きく依存しており、それは低周波の特徴を捉えるのに優れ、セマンティックセグメンテーションのための高周波の特徴を学ぶのに固有の限界を見落としている。
近年の研究では、拡散生成モデルが高周波の詳細を生成するのに優れていることが示されている。
理論解析により,拡散復調処理によって高頻度特徴を学習する能力が著しく向上することが確認されるが,原画像のみに導かれると,低周波特徴のセマンティック推論が不十分であることも確認できる。
そこで我々は,識別学習と生成学習の双方の長所を統合し,識別学習と拡散学習を統合した境界再定義(IDGBR)フレームワークを提案する。
フレームワークはまず、識別バックボーンモデルを用いて粗いセグメンテーションマップを生成する。
この地図と原画像とを条件付き誘導網に入力し、その後、粗いセグメンテーションを精製する反復デノナイズ拡散プロセスで活用されたガイダンス表現を共同で学習する。
5つのリモートセマンティックセマンティックセマンティックセマンティクスデータセット(バイナリとマルチクラスセマンティクス)にわたる広範囲な実験により、多種多様な識別アーキテクチャによる粗い結果に対する一貫した境界修正のフレームワーク能力が確認された。
ソースコードはhttps://github.com/KeyanHu-git/IDGBRで入手できる。
関連論文リスト
- CASC-AI: Consensus-aware Self-corrective Learning for Noise Cell Segmentation [8.50335568530725]
高解像度ギガピクセル全スライド画像における多クラス細胞セグメンテーションは様々な臨床応用に不可欠である。
近年の取り組みは、医療の専門知識を持たないレイアノテータを巻き込むことによって、このプロセスを民主化している。
本稿では,Consensus Matrixを利用して学習プロセスをガイドする,コンセンサス対応の自己修正型AIエージェントを提案する。
論文 参考訳(メタデータ) (2025-02-11T06:58:50Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Semantic Diffusion Network for Semantic Segmentation [1.933681537640272]
セマンティック境界認識を強化する演算子レベルのアプローチを導入する。
意味拡散ネットワーク(SDN)と呼ばれる新しい学習可能なアプローチを提案する。
我々のSDNは、元の機能からクラス間境界強化機能への微分可能なマッピングを構築することを目的としています。
論文 参考訳(メタデータ) (2023-02-04T01:39:16Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。