論文の概要: CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.23456v1
- Date: Sun, 30 Mar 2025 14:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.132042
- Title: CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation
- Title(参考訳): CADFormer:リモートセンシング画像セグメント参照のための細粒度クロスモーダルアライメントとデコードトランス
- Authors: Maofu Liu, Xin Jiang, Xiaokang Zhang,
- Abstract要約: 既存のRRSIS法は通常、多モード特徴を得るために粗い一方向アライメントアプローチを用いる。
RRSISのための細粒度なクロスモーダルアライメントとデコードトランスフォーマーCADFormerを提案する。
CADFormerの性能を徹底的に評価するために、より高解像度のRS画像パッチと意味的にリッチな言語表現を含む新しいRRSISデータセットRRSIS-HRを構築した。
- 参考スコア(独自算出の注目度): 18.71422427628054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Remote Sensing Image Segmentation (RRSIS) is a challenging task, aiming to segment specific target objects in remote sensing (RS) images based on a given language expression. Existing RRSIS methods typically employ coarse-grained unidirectional alignment approaches to obtain multimodal features, and they often overlook the critical role of language features as contextual information during the decoding process. Consequently, these methods exhibit weak object-level correspondence between visual and language features, leading to incomplete or erroneous predicted masks, especially when handling complex expressions and intricate RS image scenes. To address these challenges, we propose a fine-grained cross-modal alignment and decoding Transformer, CADFormer, for RRSIS. Specifically, we design a semantic mutual guidance alignment module (SMGAM) to achieve both vision-to-language and language-to-vision alignment, enabling comprehensive integration of visual and textual features for fine-grained cross-modal alignment. Furthermore, a textual-enhanced cross-modal decoder (TCMD) is introduced to incorporate language features during decoding, using refined textual information as context to enhance the relationship between cross-modal features. To thoroughly evaluate the performance of CADFormer, especially for inconspicuous targets in complex scenes, we constructed a new RRSIS dataset, called RRSIS-HR, which includes larger high-resolution RS image patches and semantically richer language expressions. Extensive experiments on the RRSIS-HR dataset and the popular RRSIS-D dataset demonstrate the effectiveness and superiority of CADFormer. Datasets and source codes will be available at https://github.com/zxk688.
- Abstract(参考訳): Referring Remote Sensing Image Segmentation (RRSIS) は、特定のターゲットオブジェクトを所定の言語表現に基づいてリモートセンシング(RS)イメージにセグメント化することを目的とした課題である。
既存のRRSIS法は通常、多モーダルな特徴を得るために粗い一方向のアライメントアプローチを採用しており、復号過程において言語特徴の重要な役割を文脈情報として見落としていることが多い。
その結果、これらの手法は、視覚的特徴と言語的特徴の弱いオブジェクトレベル対応を示し、特に複雑な表現や複雑なRS画像シーンを扱う際に、不完全または誤予測マスクをもたらす。
これらの課題に対処するために、RRSISのための細粒度のクロスモーダルアライメントとデコードトランスフォーマーCADFormerを提案する。
具体的には,視覚・言語・言語・視覚のアライメントを実現するためのセマンティック・アライメント・アライメント・モジュール(SMGAM)を設計する。
さらに, テキストエンハンスなクロスモーダルデコーダ (TCMD) を導入し, 言語特徴をデコード中に組み込んで, 洗練されたテキスト情報をコンテキストとして利用し, クロスモーダル特徴の関係性を高める。
CADFormerの性能,特に複雑な場面における不明瞭な対象に対して,より高解像度のRS画像パッチと意味豊かな言語表現を含むRRSIS-HRと呼ばれる新しいRRSISデータセットを構築した。
RRSIS-HRデータセットと一般的なRRSIS-Dデータセットに関する大規模な実験はCADFormerの有効性と優位性を示している。
データセットとソースコードはhttps://github.com/zxk688.comから入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。