論文の概要: Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization
- arxiv url: http://arxiv.org/abs/2510.05038v1
- Date: Mon, 06 Oct 2025 17:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.011019
- Title: Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization
- Title(参考訳): Guided Query Refinement: テスト時間最適化によるマルチモーダルハイブリッド検索
- Authors: Omri Uzan, Asaf Yehudai, Roi pony, Eyal Shnarch, Ariel Gera,
- Abstract要約: マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。
軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 10.476757608225475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal encoders have pushed the boundaries of visual document retrieval, matching textual query tokens directly to image patches and achieving state-of-the-art performance on public benchmarks. Recent models relying on this paradigm have massively scaled the sizes of their query and document representations, presenting obstacles to deployment and scalability in real-world pipelines. Furthermore, purely vision-centric approaches may be constrained by the inherent modality gap still exhibited by modern vision-language models. In this work, we connect these challenges to the paradigm of hybrid retrieval, investigating whether a lightweight dense text retriever can enhance a stronger vision-centric model. Existing hybrid methods, which rely on coarse-grained fusion of ranks or scores, fail to exploit the rich interactions within each model's representation space. To address this, we introduce Guided Query Refinement (GQR), a novel test-time optimization method that refines a primary retriever's query embedding using guidance from a complementary retriever's scores. Through extensive experiments on visual document retrieval benchmarks, we demonstrate that GQR allows vision-centric models to match the performance of models with significantly larger representations, while being up to 14x faster and requiring 54x less memory. Our findings show that GQR effectively pushes the Pareto frontier for performance and efficiency in multimodal retrieval. We release our code at https://github.com/IBM/test-time-hybrid-retrieval
- Abstract(参考訳): マルチモーダルエンコーダは、ビジュアルドキュメント検索の境界を押し上げ、画像パッチに直接テキストクエリトークンをマッチングし、公開ベンチマークで最先端のパフォーマンスを達成する。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大し、現実世界のパイプラインにおけるデプロイメントとスケーラビリティの障害を提示している。
さらに、純粋に視覚中心のアプローチは、現代の視覚言語モデルで示される固有のモダリティギャップによって制約される可能性がある。
本研究では,これらの課題をハイブリッド検索のパラダイムに結びつけ,軽量な高密度テキスト検索が視覚中心モデルを強化できるかどうかを考察する。
既存のハイブリッド手法は、ランクやスコアの粗い融合に依存しているが、各モデルの表現空間内でのリッチな相互作用を利用できない。
そこで本研究では,補完的な検索者のスコアからのガイダンスを用いて一次検索者のクエリ埋め込みを改良する,新しいテスト時間最適化手法であるガイドドクエリ再定義(GQR)を提案する。
ビジュアル文書検索ベンチマークの広範な実験を通じて、GQRにより、最大14倍高速で54倍のメモリを必要とするモデルの性能と、はるかに大きな表現で、視覚中心のモデルの性能が一致できることが実証された。
以上の結果から,GQRはマルチモーダル検索におけるパレートフロンティアの効率向上に有効であることがわかった。
コードをhttps://github.com/IBM/test-time-hybrid-retrievalでリリースします。
関連論文リスト
- ModernVBERT: Towards Smaller Visual Document Retrievers [8.752477008109844]
ModernVBERTはコンパクトな視覚言語エンコーダで、文書検索タスクで微調整された場合、最大10倍のモデルで性能が向上する。
我々は、注目マスキング、画像解像度、モダリティアライメントデータレギュレーション、および中心的なパフォーマンス要因として出現する相対的な目標を中心とする遅延相互作用の影響を計測する。
論文 参考訳(メタデータ) (2025-10-01T17:41:17Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。