論文の概要: Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2505.16756v1
- Date: Thu, 22 May 2025 14:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.37937
- Title: Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval
- Title(参考訳): リモートセンシング画像検索のための表現不一致ブリッジ法
- Authors: Hailong Ning, Siying Wang, Tao Lei, Xiaopeng Cao, Huanmin Dou, Bin Zhao, Asoke K. Nandi, Petia Radeva,
- Abstract要約: 本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。
RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
- 参考スコア(独自算出の注目度): 15.503629941274621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Image-Text Retrieval (RSITR) plays a critical role in geographic information interpretation, disaster monitoring, and urban planning by establishing semantic associations between image and textual descriptions. Existing Parameter-Efficient Fine-Tuning (PEFT) methods for Vision-and-Language Pre-training (VLP) models typically adopt symmetric adapter structures for exploring cross-modal correlations. However, the strong discriminative nature of text modality may dominate the optimization process and inhibits image representation learning. The nonnegligible imbalanced cross-modal optimization remains a bottleneck to enhancing the model performance. To address this issue, this study proposes a Representation Discrepancy Bridging (RDB) method for the RSITR task. On the one hand, a Cross-Modal Asymmetric Adapter (CMAA) is designed to enable modality-specific optimization and improve feature alignment. The CMAA comprises a Visual Enhancement Adapter (VEA) and a Text Semantic Adapter (TSA). VEA mines fine-grained image features by Differential Attention (DA) mechanism, while TSA identifies key textual semantics through Hierarchical Attention (HA) mechanism. On the other hand, this study extends the traditional single-task retrieval framework to a dual-task optimization framework and develops a Dual-Task Consistency Loss (DTCL). The DTCL improves cross-modal alignment robustness through an adaptive weighted combination of cross-modal, classification, and exponential moving average consistency constraints. Experiments on RSICD and RSITMD datasets show that the proposed RDB method achieves a 6%-11% improvement in mR metrics compared to state-of-the-art PEFT methods and a 1.15%-2% improvement over the full fine-tuned GeoRSCLIP model.
- Abstract(参考訳): リモートセンシング画像-テキスト検索(RSITR)は,画像記述とテキスト記述のセマンティックな関連性を確立することにより,地理情報解釈,災害監視,都市計画において重要な役割を担っている。
視覚・言語前訓練(VLP)モデルのための既存のパラメータ効率の良いファインチューニング(PEFT)法は、一般的に対称なアダプタ構造を用いて、クロスモーダル相関を探索する。
しかし、テキストモダリティの強い差別的性質は、最適化プロセスを支配し、画像表現学習を阻害する可能性がある。
無視できない不均衡なクロスモーダル最適化は、モデルの性能向上のボトルネックであり続けている。
そこで本研究では,RSITRタスクのためのRepresentation Discrepancy Bridging(RDB)手法を提案する。
一方、Cross-Modal Asymmetric Adapter (CMAA) は、モダリティ固有の最適化と機能アライメントの改善を目的として設計されている。
CMAAは、ビジュアルエンハンスメントアダプタ(VEA)とテキストセマンティックアダプタ(TSA)を備える。
VEAは微分アテンション(DA)機構によってきめ細かい画像の特徴を抽出し、TSAは階層アテンション(HA)機構を通じて重要なテキストセマンティクスを識別する。
一方,本研究では従来のシングルタスク検索フレームワークをデュアルタスク最適化フレームワークに拡張し,Dual-Task Consistency Loss (DTCL) を開発した。
DTCLは、クロスモーダル、分類、指数移動平均一貫性制約の適応重み付け組み合わせにより、クロスモーダルアライメントロバスト性を改善する。
RSICDとRSITMDデータセットの実験により、提案手法は最先端PEFT法と比較してmRの6%-11%改善し、GeoRSCLIPモデルに対して1.15%-2%改善した。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキストベースの人探索(TBPS)はIoT(Internet of Things)領域において重要なタスクである。
クロスモーダルTBPSタスクでは、共通空間においてよく分散された表現を得ることが重要である。
本稿では,Sew Embedding and Masked Modeling (SCMM)を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing
Images Semantic Segmentation [15.177834801688979]
アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。
画素レベルのドメインギャップを最小限に抑えるために、DualGANなどの逆生成法が未ペア画像から画像への変換に利用される。
本稿では,RS画像の変換においてResiDualGANを提案する。
論文 参考訳(メタデータ) (2022-01-27T13:56:54Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。