論文の概要: Beyond Pixels: A Training-Free, Text-to-Text Framework for Remote Sensing Image Retrieval
- arxiv url: http://arxiv.org/abs/2512.10596v1
- Date: Thu, 11 Dec 2025 12:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.359095
- Title: Beyond Pixels: A Training-Free, Text-to-Text Framework for Remote Sensing Image Retrieval
- Title(参考訳): Beyond Pixels: リモートセンシング画像検索のためのトレーニング不要のテキスト・テキスト・フレームワーク
- Authors: J. Xiao, Y. Guo, X. Zi, K. Thiyagarajan, C. Moreira, M. Prasad,
- Abstract要約: 我々は、画像毎に複数の構造化キャプションを特徴付ける新しいベンチマークであるRemote Sensing Rich Textデータセットを紹介する。
本データセットに基づいて,TRSLLaVAと呼ばれる完全トレーニングフリーでテキストのみの検索基準を提案する。
提案手法は,VLM生成キャプションのデータベースに対して,リッチテキスト記述をクエリとして活用し,テキスト間マッチング問題としてクロスモーダル検索を再構成する。
- 参考スコア(独自算出の注目度): 2.2613695007273926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic retrieval of remote sensing (RS) images is a critical task fundamentally challenged by the \textquote{semantic gap}, the discrepancy between a model's low-level visual features and high-level human concepts. While large Vision-Language Models (VLMs) offer a promising path to bridge this gap, existing methods often rely on costly, domain-specific training, and there is a lack of benchmarks to evaluate the practical utility of VLM-generated text in a zero-shot retrieval context. To address this research gap, we introduce the Remote Sensing Rich Text (RSRT) dataset, a new benchmark featuring multiple structured captions per image. Based on this dataset, we propose a fully training-free, text-only retrieval reference called TRSLLaVA. Our methodology reformulates cross-modal retrieval as a text-to-text (T2T) matching problem, leveraging rich text descriptions as queries against a database of VLM-generated captions within a unified textual embedding space. This approach completely bypasses model training or fine-tuning. Experiments on the RSITMD and RSICD benchmarks show our training-free method is highly competitive with state-of-the-art supervised models. For instance, on RSITMD, our method achieves a mean Recall of 42.62\%, nearly doubling the 23.86\% of the standard zero-shot CLIP baseline and surpassing several top supervised models. This validates that high-quality semantic representation through structured text provides a powerful and cost-effective paradigm for remote sensing image retrieval.
- Abstract(参考訳): リモートセンシング(RS)画像のセマンティック検索は,低レベルの視覚的特徴と高レベルの人間の概念との相違点である‘textquote{semantic gap}’によって,基本的な課題である。
大きなビジョンランゲージモデル(VLM)は、このギャップを埋めるための有望な道を提供するが、既存の手法は、しばしば高価なドメイン固有のトレーニングに依存し、ゼロショットの文脈でVLM生成したテキストの実用性を評価するためのベンチマークが欠如している。
この研究ギャップに対処するために、画像毎に複数の構造化キャプションを特徴とする新しいベンチマークであるRemote Sensing Rich Text (RSRT)データセットを導入する。
本データセットに基づいて,TRSLLaVAと呼ばれる完全トレーニングフリーでテキストのみの検索基準を提案する。
本手法は,テキスト・トゥ・テキスト(T2T)マッチング問題としてクロスモーダル検索を再構成し,リッチテキスト記述をVLM生成キャプションのデータベースに対するクエリとして活用する。
このアプローチは、モデルトレーニングや微調整を完全に回避します。
RSITMDとRSICDのベンチマーク実験により、我々のトレーニング不要の手法は最先端の教師付きモデルと非常に競合することを示した。
例えば、RSITMDでは、標準的なゼロショットCLIPベースラインの23.86\%をほぼ倍増し、いくつかの上位教師付きモデルを上回る42.62\%のリコールを実現している。
これにより、構造化テキストによる高品質なセマンティック表現が、リモートセンシング画像検索に強力で費用対効果の高いパラダイムを提供することを示す。
関連論文リスト
- Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models [6.591422574318155]
テキスト中心のトレーニングは、テキスト記述のみが利用可能であり、実際の画像は提供されない設定である。
プライバシの制約やニッチドメインの不足によって収集が制限される画像とは異なり、テキストは広く利用することができる。
そこで,テキストプリント画像(TPI)を提案し,テキスト記述を直接白キャンバスに描画することで合成画像を生成する。
論文 参考訳(メタデータ) (2025-12-03T05:36:46Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。
本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。
実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.13782704236074]
視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。