論文の概要: Bidirectional Cross-Perception for Open-Vocabulary Semantic Segmentation in Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2601.21159v1
- Date: Thu, 29 Jan 2026 01:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.505782
- Title: Bidirectional Cross-Perception for Open-Vocabulary Semantic Segmentation in Remote Sensing Imagery
- Title(参考訳): リモートセンシング画像におけるオープンボキャブラリセマンティックセマンティックセグメンテーションの双方向クロスパーセプション
- Authors: Jianzheng Wang, Huan Ni,
- Abstract要約: 訓練不要なオープン語彙セマンティックセマンティックセグメンテーション(OVSS)手法は一般的にCLIPと視覚基礎モデル(VFM)を融合させる
SDCIと呼ばれるトレーニングフリーなOVSSのための空間正規化対応二分岐協調推論フレームワークを提案する。
複数のリモートセンシングセマンティックセマンティック・セマンティクス・ベンチマーク実験により,本手法が既存手法よりも優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-resolution remote sensing imagery is characterized by densely distributed land-cover objects and complex boundaries, which places higher demands on both geometric localization and semantic prediction. Existing training-free open-vocabulary semantic segmentation (OVSS) methods typically fuse CLIP and vision foundation models (VFMs) using "one-way injection" and "shallow post-processing" strategies, making it difficult to satisfy these requirements. To address this issue, we propose a spatial-regularization-aware dual-branch collaborative inference framework for training-free OVSS, termed SDCI. First, during feature encoding, SDCI introduces a cross-model attention fusion (CAF) module, which guides collaborative inference by injecting self-attention maps into each other. Second, we propose a bidirectional cross-graph diffusion refinement (BCDR) module that enhances the reliability of dual-branch segmentation scores through iterative random-walk diffusion. Finally, we incorporate low-level superpixel structures and develop a convex-optimization-based superpixel collaborative prediction (CSCP) mechanism to further refine object boundaries. Experiments on multiple remote sensing semantic segmentation benchmarks demonstrate that our method achieves better performance than existing approaches. Moreover, ablation studies further confirm that traditional object-based remote sensing image analysis methods leveraging superpixel structures remain effective within deep learning frameworks. Code: https://github.com/yu-ni1989/SDCI.
- Abstract(参考訳): 高解像度リモートセンシング画像は、高度に分散した土地被覆オブジェクトと複雑な境界によって特徴づけられる。
既存のトレーニングフリーなオープン語彙セマンティックセグメンテーション(OVSS)メソッドは、通常、CLIPとビジョンファウンデーションモデル(VFM)を"ワンウェイインジェクション"と"ショートポストプロセッシング"戦略で融合させ、これらの要件を満たすことは困難である。
この問題に対処するために,SDCI と呼ばれるトレーニングフリー OVSS のための空間正規化対応二分岐協調推論フレームワークを提案する。
まず、SDCIは機能符号化中に、相互に自己注意マップを注入することによって協調推論をガイドするクロスモデルアテンション融合(CAF)モジュールを導入する。
第2に,反復的ランダムウォーク拡散による二分岐セグメンテーションスコアの信頼性を高める双方向クロスグラフ拡散改善(BCDR)モジュールを提案する。
最後に,低レベル超画素構造を取り入れ,凸最適化に基づく超画素協調予測(CSCP)機構を開発し,オブジェクト境界をさらに洗練する。
複数のリモートセンシングセマンティックセマンティック・セマンティクス・ベンチマーク実験により,本手法が既存手法よりも優れた性能を実現することを示す。
さらにアブレーション研究により,スーパーピクセル構造を利用した従来のオブジェクトベースリモートセンシング画像解析手法が深層学習フレームワークにおいて有効であることが確認された。
コード:https://github.com/yu-ni1989/SDCI
関連論文リスト
- Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models [25.265113510539546]
Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。
現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。
本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。