Fugu-MT 論文翻訳(概要): Fast-then-Fine: A Two-Stage Framework with Multi-Granular Representation for Cross-Modal Retrieval in Remote Sensing

論文の概要: Fast-then-Fine: A Two-Stage Framework with Multi-Granular Representation for Cross-Modal Retrieval in Remote Sensing

arxiv url: http://arxiv.org/abs/2604.20429v1
Date: Wed, 22 Apr 2026 10:50:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.091625
Title: Fast-then-Fine: A Two-Stage Framework with Multi-Granular Representation for Cross-Modal Retrieval in Remote Sensing
Title（参考訳）: Fast-then-Fine: リモートセンシングにおけるクロスモーダル検索のためのマルチグラニュラー表現付き2段階フレームワーク
Authors: Xi Chen, Xu Chen, Xiangyang Jia, Xu Zhang, Shuquan Wei, Wei Wang,
Abstract要約: リモートセンシング(RS)画像テキスト検索は、大規模なRS画像を理解する上で重要な役割を果たす。既存の手法は、検索効率の低下につながる複雑なクロスモーダル相互作用に依存するか、大規模な視覚言語モデルの事前学習に依存する。本稿では,検索をテキストに依存しないリコールステージと,微粒なアライメントのためのテキスト誘導リランクステージに分解するFTF(Fast-then-fine)2段階検索フレームワークを提案する。
参考スコア（独自算出の注目度）: 13.181195595944603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote sensing (RS) image-text retrieval plays a critical role in understanding massive RS imagery. However, the dense multi-object distribution and complex backgrounds in RS imagery make it difficult to simultaneously achieve fine-grained cross-modal alignment and efficient retrieval. Existing methods either rely on complex cross-modal interactions that lead to low retrieval efficiency, or depend on large-scale vision-language model pre-training, which requires massive data and computational resources. To address these issues, we propose a fast-then-fine (FTF) two-stage retrieval framework that decomposes retrieval into a text-agnostic recall stage for efficient candidate selection and a text-guided rerank stage for fine-grained alignment. Specifically, in the recall stage, text-agnostic coarse-grained representations are employed for efficient candidate selection; in the rerank stage, a parameter-free balanced text-guided interaction block enhances fine-grained alignment without introducing additional learnable parameters. Furthermore, an inter- and intra-modal loss is designed to jointly optimize cross-modal alignment across multi-granular representations. Extensive experiments on public benchmarks demonstrate that the FTF achieves competitive retrieval accuracy while significantly improving retrieval efficiency compared with existing methods.
Abstract（参考訳）: リモートセンシング(RS)画像テキスト検索は、大規模なRS画像を理解する上で重要な役割を果たす。しかし、RS画像の多対象密度分布と複雑な背景により、細粒度のクロスモーダルアライメントと効率的な検索を同時に達成することは困難である。既存の手法では、検索効率の低下につながる複雑なクロスモーダル相互作用や、大量のデータと計算資源を必要とする大規模視覚言語モデルの事前学習に依存している。これらの問題に対処するために、効率的な候補選択のためのテキスト非依存のリコールステージと、きめ細かいアライメントのためのテキスト誘導リランクステージに検索を分解するFTF(fast-then-fine)2段階検索フレームワークを提案する。具体的には、リコール段階では、効率的な候補選択のためにテキスト非依存の粗粒度表現を用い、再帰段階では、パラメータフリーなテキスト誘導相互作用ブロックは、追加の学習可能なパラメータを導入することなく、きめ細かいアライメントを高める。さらに,マルチグラニュラ表現間のクロスモーダルアライメントを協調的に最適化するために,モーダル間損失とモーダル内損失を設計する。公開ベンチマーク実験により、FTFは既存の手法と比較して、検索効率を著しく向上させながら、競争力のある検索精度を達成できることが示されている。

関連論文リスト

Learning Image-Text Matching with Optimal Partial Transport [49.656836538448054]
視覚と言語をブリッジする基本的なタスクであるクロスモーダルマッチングは、最近、かなりの研究の関心を集めている。本稿では,crOss-Modal sInkhorn Matchingネットワークを有効解として提案する。我々は、Flickr30KとMS-COCOという2つのベンチマーク画像テキスト検索データセット上で、OMITを広範囲に評価する。
論文参考訳（メタデータ） (2026-03-15T12:31:19Z)
GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。 GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文参考訳（メタデータ） (2026-01-23T10:12:59Z)
PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval [17.251288844354914]
PMP(Pseudo-Matched Pairs)の存在によるリモートセンシング(RS)画像テキスト検索の課題本稿では,クロスモーダル・ゲーティング・アテンションとポジティブ・ネガティブ・アテンション・メカニズムを活用する新しい検索フレームワークを提案する。提案手法は,RS画像テキスト検索タスクにおける実世界のミスマッチやPMPの処理における頑健さと有効性を強調し,常に最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-12-21T09:16:11Z)
GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文参考訳（メタデータ） (2024-10-20T03:45:50Z)
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。 CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文参考訳（メタデータ） (2024-02-23T11:47:16Z)
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。 RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文参考訳（メタデータ） (2022-04-21T03:53:19Z)
Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。 RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-19T07:25:25Z)
Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文参考訳（メタデータ） (2022-02-21T15:30:14Z)
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文参考訳（メタデータ） (2021-03-22T15:08:06Z)
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。 TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。 MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文参考訳（メタデータ） (2020-08-12T11:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。