論文の概要: ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2603.29271v1
- Date: Tue, 31 Mar 2026 05:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.166875
- Title: ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation
- Title(参考訳): ConInfer: 学習自由なオープン語彙リモートセンシングセグメンテーションのためのコンテキスト認識推論
- Authors: Wenyang Chen, Zhanxuan Hu, Yaping Zhang, Hailong Ning, Yonghang Tai,
- Abstract要約: リモートセンシング画像におけるカテゴリに依存しない意味理解を実現するための,訓練不要なオープン語彙リモートセンシングセグメンテーション (OVRSS) が,有望なパラダイムとして登場した。
我々は,複数の空間単位をまたいだ共同予測を行う,OVRSSのコンテキスト認識推論フレームワークであるConInferを提案する。
本手法は,複雑なリモートセンシング環境におけるセグメンテーションの整合性,堅牢性,一般化を著しく向上させる。
- 参考スコア(独自算出の注目度): 12.428190609914594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free open-vocabulary remote sensing segmentation (OVRSS), empowered by vision-language models, has emerged as a promising paradigm for achieving category-agnostic semantic understanding in remote sensing imagery. Existing approaches mainly focus on enhancing feature representations or mitigating modality discrepancies to improve patch-level prediction accuracy. However, such independent prediction schemes are fundamentally misaligned with the intrinsic characteristics of remote sensing data. In real-world applications, remote sensing scenes are typically large-scale and exhibit strong spatial as well as semantic correlations, making isolated patch-wise predictions insufficient for accurate segmentation. To address this limitation, we propose ConInfer, a context-aware inference framework for OVRSS that performs joint prediction across multiple spatial units while explicitly modeling their inter-unit semantic dependencies. By incorporating global contextual cues, our method significantly enhances segmentation consistency, robustness, and generalization in complex remote sensing environments. Extensive experiments on multiple benchmark datasets demonstrate that our approach consistently surpasses state-of-the-art per-pixel VLM-based baselines such as SegEarth-OV, achieving average improvements of 2.80% and 6.13% on open-vocabulary semantic segmentation and object extraction tasks, respectively. The implementation code is available at: https://github.com/Dog-Yang/ConInfer
- Abstract(参考訳): 視覚言語モデルによって強化された学習自由なオープン語彙リモートセンシングセグメンテーション(OVRSS)は、リモートセンシング画像におけるカテゴリに依存しないセマンティック理解を実現するための有望なパラダイムとして登場した。
既存のアプローチは主に、パッチレベルの予測精度を改善するために、特徴表現の強化やモダリティの相違の緩和に重点を置いている。
しかし、このような独立した予測スキームは、リモートセンシングデータの本質的な特性と基本的には一致していない。
現実世界のアプリケーションでは、リモートセンシングシーンは通常大規模であり、強い空間的および意味的相関を示すため、正確なセグメンテーションにはパッチワイズ予測が不十分である。
この制限に対処するために、複数の空間単位をまたいだ共同予測を行い、ユニット間のセマンティック依存関係を明示的にモデル化する、OVRSSのコンテキスト認識推論フレームワークであるConInferを提案する。
グローバルな文脈的手がかりを取り入れることで,複雑なリモートセンシング環境におけるセグメンテーションの整合性,堅牢性,一般化を著しく向上させる。
複数のベンチマークデータセットに対する大規模な実験により、我々のアプローチは、SegEarth-OVのような最先端のVLMベースラインを一貫して上回り、オープン語彙セマンティックセグメンテーションとオブジェクト抽出タスクにおいて平均2.80%と6.13%の改善を達成した。
実装コードは、https://github.com/Dog-Yang/ConInfer.comで利用可能である。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Bidirectional Cross-Perception for Open-Vocabulary Semantic Segmentation in Remote Sensing Imagery [1.0742675209112622]
訓練不要なオープン語彙セマンティックセマンティックセグメンテーション(OVSS)手法は一般的にCLIPと視覚基礎モデル(VFM)を融合させる
SDCIと呼ばれるトレーニングフリーなOVSSのための空間正規化対応二分岐協調推論フレームワークを提案する。
複数のリモートセンシングセマンティックセマンティック・セマンティクス・ベンチマーク実験により,本手法が既存手法よりも優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T01:46:03Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。