論文の概要: DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.18946v1
- Date: Mon, 23 Jun 2025 02:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.307881
- Title: DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models
- Title(参考訳): DiffRIS: 事前訓練されたテキスト-画像拡散モデルによるリモートセンシング画像セグメンテーションの活用
- Authors: Zhe Dong, Yuzhe Sun, Tianzhu Liu, Yanfeng Gu,
- Abstract要約: DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
- 参考スコア(独自算出の注目度): 9.109484087832058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring remote sensing image segmentation (RRSIS) enables the precise delineation of regions within remote sensing imagery through natural language descriptions, serving critical applications in disaster response, urban development, and environmental monitoring. Despite recent advances, current approaches face significant challenges in processing aerial imagery due to complex object characteristics including scale variations, diverse orientations, and semantic ambiguities inherent to the overhead perspective. To address these limitations, we propose DiffRIS, a novel framework that harnesses the semantic understanding capabilities of pre-trained text-to-image diffusion models for enhanced cross-modal alignment in RRSIS tasks. Our framework introduces two key innovations: a context perception adapter (CP-adapter) that dynamically refines linguistic features through global context modeling and object-aware reasoning, and a progressive cross-modal reasoning decoder (PCMRD) that iteratively aligns textual descriptions with visual regions for precise segmentation. The CP-adapter bridges the domain gap between general vision-language understanding and remote sensing applications, while PCMRD enables fine-grained semantic alignment through multi-scale feature interaction. Comprehensive experiments on three benchmark datasets-RRSIS-D, RefSegRS, and RISBench-demonstrate that DiffRIS consistently outperforms existing methods across all standard metrics, establishing a new state-of-the-art for RRSIS tasks. The significant performance improvements validate the effectiveness of leveraging pre-trained diffusion models for remote sensing applications through our proposed adaptive framework.
- Abstract(参考訳): リモートセンシング画像セグメンテーション(RRSIS)の参照により、自然言語によるリモートセンシング画像内の領域の正確な記述が可能となり、災害対応、都市開発、環境モニタリングにおける重要な応用に役立つ。
近年の進歩にもかかわらず、現在のアプローチでは、オーバヘッドの視点に固有のスケールのバリエーション、多彩な向き、意味的あいまいさなど、複雑な物体の特性のために、空中画像の処理において重大な課題に直面している。
これらの制約に対処するため, RRSISタスクにおけるクロスモーダルアライメントの強化のために, 事前学習したテキスト・画像拡散モデルの意味理解機能を利用する新しいフレームワークであるDiffRISを提案する。
本フレームワークでは,グローバルコンテキストモデリングとオブジェクト認識推論による言語特徴を動的に洗練する文脈認識アダプタ (CP-adapter) と,テキスト記述を視覚領域に反復的に整合させて正確なセグメンテーションを行うプログレッシブ・クロスモーダル推論デコーダ (PCMRD) という2つの重要なイノベーションを導入する。
CP-adapterは、汎用視覚言語理解とリモートセンシングアプリケーションのドメインギャップを埋める一方、PCMRDはマルチスケールの機能相互作用を通じて、きめ細かなセマンティックアライメントを可能にする。
RRSIS-D、RefSegRS、RISBench-demonstrateの3つのベンチマークデータセットに関する包括的な実験では、DiffRISはすべての標準メトリクスで既存のメソッドを一貫して上回り、RRSISタスクの新たな最先端を確立している。
提案した適応フレームワークを用いて,リモートセンシングアプリケーションに対する事前学習拡散モデルの有効性を検証した。
関連論文リスト
- Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。
RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文 参考訳(メタデータ) (2025-05-22T14:59:30Z) - MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.30559905769859]
MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文 参考訳(メタデータ) (2025-03-11T07:00:20Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。