論文の概要: BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment
- arxiv url: http://arxiv.org/abs/2604.07201v1
- Date: Wed, 08 Apr 2026 15:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.608769
- Title: BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment
- Title(参考訳): BRIDGE: 強化学習クエリアライメントによるマルチモーダルテキスト検索
- Authors: Mohamed Darwish Mounis, Mohamed Mahmoud, Shaimaa Sedek, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Abdelrahman Abdallah, Hyun-Soo Kang,
- Abstract要約: 最高の視覚言語エンコーダはMM-BRIGHT上で27.6 nDCG@10しか達成せず、強いテキストのみのレシーバーよりも優れています。
マルチモーダルエンコーダを使わずにこのミスマッチを解消する2成分システムである textbfBRIDGE を提案する。
textbfFORGEは強化学習によって訓練されたクエリアライメントモデルであり、ノイズの多いマルチモーダルクエリをコンパクトで検索最適化された検索文字列に蒸留する。
textbfLENSは、ForGEが生成するインテントリッチクエリを処理するために、推論集約検索データに基づいて微調整された、推論強化の高密度レトリバーである。
- 参考スコア(独自算出の注目度): 5.285385905661152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal retrieval systems struggle to resolve image-text queries against text-only corpora: the best vision-language encoder achieves only 27.6 nDCG@10 on MM-BRIGHT, underperforming strong text-only retrievers. We argue the bottleneck is not the retriever but the query -- raw multimodal queries entangle visual descriptions, conversational noise, and retrieval intent in ways that systematically degrade embedding similarity. We present \textbf{BRIDGE}, a two-component system that resolves this mismatch without multimodal encoders. \textbf{FORGE} (\textbf{F}ocused Retrieval Query Generato\textbf{r}) is a query alignment model trained via reinforcement learning, which distills noisy multimodal queries into compact, retrieval-optimized search strings. \textbf{LENS} (\textbf{L}anguage-\textbf{E}nhanced \textbf{N}eural \textbf{S}earch) is a reasoning-enhanced dense retriever fine-tuned on reasoning-intensive retrieval data to handle the intent-rich queries FORGE produces. Evaluated on MM-BRIGHT (2,803 queries, 29 domains), BRIDGE achieves \textbf{29.7} nDCG@10, surpassing all multimodal encoder baselines including Nomic-Vision (27.6). When FORGE is applied as a plug-and-play aligner on top of Nomic-Vision, the combined system reaches \textbf{33.3} nDCG@10 -- exceeding the best text-only retriever (32.2) -- demonstrating that \textit{query alignment} is the key bottleneck in multimodal-to-text retrieval. https://github.com/mm-bright/multimodal-reasoning-retrieval
- Abstract(参考訳): 最高の視覚言語エンコーダは、MM-BRIGHT上で27.6 nDCG@10しか達成せず、強いテキストのみの検索器を弱めている。
我々は、ボトルネックは検索者ではなく、クエリー -- 生のマルチモーダルクエリーは、視覚的記述、会話のノイズ、検索意図を、組込み類似性を体系的に劣化させる方法で絡み合わせている、と論じている。
マルチモーダルエンコーダを使わずにこのミスマッチを解消する2成分システムであるtextbf{BRIDGE} を提案する。
textbf{FORGE} (\textbf{F}ocused Retrieval Query Generato\textbf{r}) は、強化学習によって訓練されたクエリアライメントモデルであり、ノイズの多いマルチモーダルクエリをコンパクトで検索最適化された検索文字列に蒸留する。
textbf{LENS} (\textbf{L}anguage-\textbf{E}nhanced \textbf{N}eural \textbf{S}earch) は、意図に富んだクエリ FORGE が生成する推論集約検索データに基づいて微調整された、推論に富んだ高密度検索である。
MM-BRIGHT (2,803クエリ、29ドメイン) に基づいて評価され、BRIDGE は \textbf{29.7} nDCG@10 を達成し、Nomic-Vision (27.6) を含むすべてのマルチモーダルエンコーダベースラインを超える。
Nomic-Visionの上のプラグ・アンド・プレイ・アライメントとしてFOGEが適用されると、複合システムは \textbf{33.3} nDCG@10 に到達し、最高のテキストのみのレトリバー (32.2) を超え、 \textit{query alignment} がマルチモーダル・テキスト検索における重要なボトルネックであることを実証する。
https://github.com/mm-bright/multimodal-reasoning-retrieval
関連論文リスト
- HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval [5.5504253907902275]
マルチモーダル検索モデルは、画像が関連する文書を特定するためにテキストと深く統合されなければならない推論集約的なクエリーで失敗する。
textbfHIVE (textbfHypothesis-driven textbfVisual textbfEvidence Retrieval) は,LLMを介してレトリバーに明示的な視覚的テキスト推論を注入するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2026-04-08T15:41:42Z) - MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL [5.5504253907902275]
我々は, LLM によるクエリ拡張, textbfMARVEL-Retriever と GPT-4o ベースのチェーン・オブ・シント・リランクを組み合わせた統合パイプラインである textbfMARVEL (textbfMultimodal textbfAdaptive textbfReasoning-intensitextbfVe textbfExpand-rerank and retrievatextbfL) を紹介する。
論文 参考訳(メタデータ) (2026-04-08T13:35:09Z) - MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval [18.53521844184766]
MM-BRIGHTは推論集約検索のための最初のマルチモーダルベンチマークである。
我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2026-01-14T15:31:54Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。