論文の概要: CroBIM-U: Uncertainty-Driven Referring Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2601.03490v1
- Date: Wed, 07 Jan 2026 01:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.101372
- Title: CroBIM-U: Uncertainty-Driven Referring Remote Sensing Image Segmentation
- Title(参考訳): CroBIM-U:不確実性駆動リファレンスリモートセンシング画像セグメンテーション
- Authors: Yuzhe Sun, Zhe Dong, Haochen Jiang, Tianzhu Liu, Yanfeng Gu,
- Abstract要約: リモートセンシング画像セグメンテーションの参照は、複雑なオーバーヘッド画像内に自然言語で記述された特定のターゲットをローカライズすることを目的としている。
既存の手法では、画像全体にわたって均一な融合と精錬戦略を用いるのが一般的である。
本稿では,適応推論のオーケストレーションに先立って,画素単位の参照不確実性マップを空間として明示的に活用する,テキストbfuncertainty-guidedフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.834663340762562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring remote sensing image segmentation aims to localize specific targets described by natural language within complex overhead imagery. However, due to extreme scale variations, dense similar distractors, and intricate boundary structures, the reliability of cross-modal alignment exhibits significant \textbf{spatial non-uniformity}. Existing methods typically employ uniform fusion and refinement strategies across the entire image, which often introduces unnecessary linguistic perturbations in visually clear regions while failing to provide sufficient disambiguation in confused areas. To address this, we propose an \textbf{uncertainty-guided framework} that explicitly leverages a pixel-wise \textbf{referring uncertainty map} as a spatial prior to orchestrate adaptive inference. Specifically, we introduce a plug-and-play \textbf{Referring Uncertainty Scorer (RUS)}, which is trained via an online error-consistency supervision strategy to interpretably predict the spatial distribution of referential ambiguity. Building on this prior, we design two plug-and-play modules: 1) \textbf{Uncertainty-Gated Fusion (UGF)}, which dynamically modulates language injection strength to enhance constraints in high-uncertainty regions while suppressing noise in low-uncertainty ones; and 2) \textbf{Uncertainty-Driven Local Refinement (UDLR)}, which utilizes uncertainty-derived soft masks to focus refinement on error-prone boundaries and fine details. Extensive experiments demonstrate that our method functions as a unified, plug-and-play solution that significantly improves robustness and geometric fidelity in complex remote sensing scenes without altering the backbone architecture.
- Abstract(参考訳): リモートセンシング画像セグメンテーションの参照は、複雑なオーバーヘッド画像内に自然言語で記述された特定のターゲットをローカライズすることを目的としている。
しかし、極端なスケールの変動、密接な類似の散乱器、複雑な境界構造により、クロスモーダルアライメントの信頼性は有意な \textbf{spatial non-uniformity} を示す。
既存の手法では、画像全体に均一な融合と改良戦略を採用しており、しばしば視覚的に明瞭な領域で不必要な言語的摂動をもたらすが、混乱した領域では十分な曖昧さを与えられなかった。
これを解決するために,適応推論のオーケストレーションに先立って空間として,ピクセル単位の「textbf{referring uncertainty map}」を明示的に活用する「textbf{uncertainty-guided framework」を提案する。
具体的には,参照あいまいさの空間分布を的確に予測するために,オンラインの誤り一貫性監視戦略を用いて訓練されたプラグアンドプレイ型不確実性スコアラー(RUS)を紹介する。
この先、我々は2つのプラグイン・アンド・プレイ・モジュールを設計しました。
1) 言語注入強度を動的に調整し、低不確かさ領域の制約を抑えつつ、低不確かさ領域の制約を緩和する「textbf{Uncertainty-Gated Fusion(UGF)」
2) 不確実性から派生したソフトマスクを応用し,エラー発生境界や細部に焦点を絞った,UDLR(textbf{Uncertainty-Driven Local Refinement)。
本手法は,複雑なリモートセンシングシーンにおいて,バックボーン構造を変更することなく,ロバスト性や幾何学的忠実度を大幅に向上する,統一的なプラグアンドプレイソリューションとして機能することを示す。
関連論文リスト
- A Dual-Branch Local-Global Framework for Cross-Resolution Land Cover Mapping [16.429154404656412]
クロスレゾリューション・ランドカバーマッピングは、粗いまたは低解像度の監視から高解像度なセマンティック・予測を生成することを目的としている。
既存の弱教師付きアプローチは、細粒度空間構造を粗いラベルで整列させるのにしばしば苦労する。
本稿では,グローバルな文脈的推論から局所的な意味的洗練を明示的に分離する,二分岐弱教師付きフレームワークDDTMを提案する。
論文 参考訳(メタデータ) (2025-12-23T02:32:02Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling [17.78769812974246]
微細な画像テキストアライメントは、マルチモーダル学習における重要な課題である。
本稿では,意味認識と地域レベルの不確実性モデリングを融合した統一アプローチを提案する。
提案手法は,各種バックボーンアーキテクチャにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-11T00:28:11Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。