論文の概要: Understanding What Is Not Said:Referring Remote Sensing Image Segmentation with Scarce Expressions
- arxiv url: http://arxiv.org/abs/2510.22760v1
- Date: Sun, 26 Oct 2025 17:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.555934
- Title: Understanding What Is Not Said:Referring Remote Sensing Image Segmentation with Scarce Expressions
- Title(参考訳): 言えないことを理解する:スカース表現を用いたリモートセンシング画像のセグメンテーション
- Authors: Kai Ye, Bowen Liu, Jianghang Lin, Jiayi Ji, Pingyang Dai, Liujuan Cao,
- Abstract要約: Referring Remote Sensing Imageは、リモートセンシングイメージのインスタンスを参照式に従ってセグメントすることを目的としている。
本稿では,RRSISのためのWREL(Weakly Referring Expression Learning)という新たな学習パラダイムを提案する。
混合参照学習は、完全注釈付き参照表現を用いたトレーニングと比較して、性能ギャップに証明可能な上限をもたらすことを示す。
- 参考スコア(独自算出の注目度): 45.04317112354794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Remote Sensing Image Segmentation (RRSIS) aims to segment instances in remote sensing images according to referring expressions. Unlike Referring Image Segmentation on general images, acquiring high-quality referring expressions in the remote sensing domain is particularly challenging due to the prevalence of small, densely distributed objects and complex backgrounds. This paper introduces a new learning paradigm, Weakly Referring Expression Learning (WREL) for RRSIS, which leverages abundant class names as weakly referring expressions together with a small set of accurate ones to enable efficient training under limited annotation conditions. Furthermore, we provide a theoretical analysis showing that mixed-referring training yields a provable upper bound on the performance gap relative to training with fully annotated referring expressions, thereby establishing the validity of this new setting. We also propose LRB-WREL, which integrates a Learnable Reference Bank (LRB) to refine weakly referring expressions through sample-specific prompt embeddings that enrich coarse class-name inputs. Combined with a teacher-student optimization framework using dynamically scheduled EMA updates, LRB-WREL stabilizes training and enhances cross-modal generalization under noisy weakly referring supervision. Extensive experiments on our newly constructed benchmark with varying weakly referring data ratios validate both the theoretical insights and the practical effectiveness of WREL and LRB-WREL, demonstrating that they can approach or even surpass models trained with fully annotated referring expressions.
- Abstract(参考訳): Referring Remote Sensing Image Segmentation (RRSIS)は、リモートセンシング画像中のインスタンスを参照式に従ってセグメントすることを目的としている。
Referring Image Segmentation on general imageとは異なり、リモートセンシング領域における高品質な参照表現の取得は、小型で高密度な分散オブジェクトや複雑な背景を持つため、特に困難である。
本稿では,限られたアノテーション条件下での効率的な学習を可能にするために,少数の正確な表現セットとともに,豊富なクラス名を弱い参照表現として活用する新しい学習パラダイムであるWREL(Weakly Referring Expression Learning)を提案する。
さらに、混合参照学習が、完全注釈付き参照表現によるトレーニングと比較して、性能ギャップの証明可能な上限を得られることを示す理論解析を行い、この新たな設定の有効性を確立した。
また,Learnerable Reference Bank (LRB) を統合した LRB-WREL を提案する。
動的にスケジュールされたEMA更新を用いた教師学生最適化フレームワークと組み合わせることで、RBB-WRELはトレーニングを安定させ、ノイズの多い監督下でのクロスモーダル一般化を強化する。
WREL と LRB-WREL の理論的洞察と実用的有効性の両方を検証し、完全に注釈付き参照表現で訓練されたモデルにアプローチしたり、超えたりできることを示した。
関連論文リスト
- SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。