論文の概要: Multi-Perspective Subimage CLIP with Keyword Guidance for Remote Sensing Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2601.18190v1
- Date: Mon, 26 Jan 2026 06:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.700061
- Title: Multi-Perspective Subimage CLIP with Keyword Guidance for Remote Sensing Image-Text Retrieval
- Title(参考訳): リモートセンシング画像検索のためのキーワードガイダンス付き多視点サブイメージCLIP
- Authors: Yifan Li, Shiying Wang, Jianqiang Huang,
- Abstract要約: MPS-CLIPは、検索パラダイムをグローバルマッチングからキーワード誘導された微粒化アライメントにシフトさせるために設計された、パラメータ効率のよいフレームワークである。
RSICDとRSITMDベンチマークの実験では、MPS-CLIPは35.18%、48.40%がリコールである。
- 参考スコア(独自算出の注目度): 18.55080473948215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pre-training (VLP) models like CLIP have significantly advanced Remote Sensing Image-Text Retrieval (RSITR). However, existing methods predominantly rely on coarse-grained global alignment, which often overlooks the dense, multi-scale semantics inherent in overhead imagery. Moreover, adapting these heavy models via full fine-tuning incurs prohibitive computational costs and risks catastrophic forgetting. To address these challenges, we propose MPS-CLIP, a parameter-efficient framework designed to shift the retrieval paradigm from global matching to keyword-guided fine-grained alignment. Specifically, we leverage a Large Language Model (LLM) to extract core semantic keywords, guiding the Segment Anything Model (SamGeo) to generate semantically relevant sub-perspectives. To efficiently adapt the frozen backbone, we introduce a Gated Global Attention (G^2A) adapter, which captures global context and long-range dependencies with minimal overhead. Furthermore, a Multi-Perspective Representation (MPR) module aggregates these local cues into robust multi-perspective embeddings. The framework is optimized via a hybrid objective combining multi-perspective contrastive and weighted triplet losses, which dynamically selects maximum-response perspectives to suppress noise and enforce precise semantic matching. Extensive experiments on the RSICD and RSITMD benchmarks demonstrate that MPS-CLIP achieves state-of-the-art performance with 35.18% and 48.40% mean Recall (mR), respectively, significantly outperforming full fine-tuning baselines and recent competitive methods. Code is available at https://github.com/Lcrucial1f/MPS-CLIP.
- Abstract(参考訳): CLIPのようなVLP(Vision-Language Pre-training)モデルでは、リモートセンシングイメージテキスト検索(RSITR)が大幅に進歩している。
しかし、既存の手法は主に粗い大域的なアライメントに依存しており、オーバヘッド画像に固有の密集したマルチスケールのセマンティクスを見落としていることが多い。
さらに、これら重モデルの完全な微調整による適用は、計算コストの禁止と破滅的な忘れ込みのリスクを負う。
これらの課題に対処するため,MPS-CLIPを提案する。MPS-CLIPは,検索パラダイムをグローバルマッチングからキーワード誘導によるきめ細かなアライメントへシフトするパラメータ効率のよいフレームワークである。
具体的には、Large Language Model(LLM)を利用してコアセマンティックキーワードを抽出し、Segment Anything Model(SamGeo)を誘導し、意味的に関連するサブパースペクティブを生成する。
凍結したバックボーンを効率的に適応するために,グローバルコンテキストと長距離依存関係を最小限のオーバーヘッドでキャプチャするGated Global Attention (G^2A)アダプタを導入する。
さらに、MPR(Multi-Perspective Representation)モジュールは、これらの局所的なキューをロバストなマルチパースペクティブな埋め込みに集約する。
このフレームワークは、マルチパースペクティブ・コントラストと重み付き三重項損失を組み合わせたハイブリッド目的により最適化され、雑音を抑え、正確なセマンティックマッチングを実施するために、最大応答視点を動的に選択する。
RSICDとRSITMDベンチマークの大規模な実験により、MPS-CLIPは、それぞれ35.18%と48.40%の平均リコール(mR)で最先端のパフォーマンスを達成し、完全な微調整ベースラインと最近の競争手法を著しく上回った。
コードはhttps://github.com/Lcrucial1f/MPS-CLIPで入手できる。
関連論文リスト
- SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM [10.006619357851843]
SupSceneは、Structure-from-Motion(SfM)に類似した幾何学的性質の重なり合う画像対を見つけるのに適した、グローバルな記述子を学習する新しいソリューションである。
提案手法は,NetVLADを著しく上回りながら,トレーニング可能なパラメータを無数に導入し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-01-17T06:28:47Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。