論文の概要: PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2512.18660v1
- Date: Sun, 21 Dec 2025 09:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.441651
- Title: PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval
- Title(参考訳): PMPGuard:リモートセンシング画像とテキスト検索のための擬似マッチングペア
- Authors: Pengxiang Ouyang, Qing Ma, Zheng Wang, Cong Bai,
- Abstract要約: PMP(Pseudo-Matched Pairs)の存在によるリモートセンシング(RS)画像テキスト検索の課題
本稿では,クロスモーダル・ゲーティング・アテンションとポジティブ・ネガティブ・アテンション・メカニズムを活用する新しい検索フレームワークを提案する。
提案手法は,RS画像テキスト検索タスクにおける実世界のミスマッチやPMPの処理における頑健さと有効性を強調し,常に最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 17.251288844354914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing (RS) image-text retrieval faces significant challenges in real-world datasets due to the presence of Pseudo-Matched Pairs (PMPs), semantically mismatched or weakly aligned image-text pairs, which hinder the learning of reliable cross-modal alignments. To address this issue, we propose a novel retrieval framework that leverages Cross-Modal Gated Attention and a Positive-Negative Awareness Attention mechanism to mitigate the impact of such noisy associations. The gated module dynamically regulates cross-modal information flow, while the awareness mechanism explicitly distinguishes informative (positive) cues from misleading (negative) ones during alignment learning. Extensive experiments on three benchmark RS datasets, i.e., RSICD, RSITMD, and RS5M, demonstrate that our method consistently achieves state-of-the-art performance, highlighting its robustness and effectiveness in handling real-world mismatches and PMPs in RS image-text retrieval tasks.
- Abstract(参考訳): リモートセンシング(RS)画像テキスト検索は、PMP(Pseudo-Matched Pairs)の存在により、現実のデータセットにおいて重大な課題に直面している。
この問題に対処するために,クロスモーダルGated AttentionとポジティブNegative Awareness Attention機構を利用した新しい検索フレームワークを提案する。
ゲートモジュールはクロスモーダル情報の流れを動的に制御し、認識機構はアライメント学習中に情報的(肯定的な)手がかりと誤った(否定的な)手がかりとを明確に区別する。
RSICD,RSITMD,RS5Mの3つのベンチマークRSデータセットに対する大規模な実験により,RS画像テキスト検索タスクにおける実世界のミスマッチやPMPの処理における頑健さと有効性を強調した。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-15T01:13:50Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文 参考訳(メタデータ) (2022-04-21T03:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。