Fugu-MT 論文翻訳(概要): HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval

論文の概要: HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval

arxiv url: http://arxiv.org/abs/2604.07220v1
Date: Wed, 08 Apr 2026 15:41:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.615947
Title: HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval
Title（参考訳）: HIVE: クエリ、仮説、マルチモーダル推論集約検索のためのLLMフレームワークの検証
Authors: Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Mostafa Farouk Senussi, Abdelrahman Abdallah, Hyun-Soo Kang,
Abstract要約: マルチモーダル検索モデルは、画像が関連する文書を特定するためにテキストと深く統合されなければならない推論集約的なクエリーで失敗する。 textbfHIVE (textbfHypothesis-driven textbfVisual textbfEvidence Retrieval) は,LLMを介してレトリバーに明示的な視覚的テキスト推論を注入するプラグイン・アンド・プレイフレームワークである。
参考スコア（独自算出の注目度）: 5.5504253907902275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal retrieval models fail on reasoning-intensive queries where images (diagrams, charts, screenshots) must be deeply integrated with text to identify relevant documents -- the best multimodal model achieves only 27.6 nDCG@10 on MM-BRIGHT, underperforming even strong text-only retrievers (32.2). We introduce \textbf{HIVE} (\textbf{H}ypothesis-driven \textbf{I}terative \textbf{V}isual \textbf{E}vidence Retrieval), a plug-and-play framework that injects explicit visual-text reasoning into a retriever via LLMs. HIVE operates in four stages: (1) initial retrieval over the corpus, (2) LLM-based compensatory query synthesis that explicitly articulates visual and logical gaps observed in top-$k$ candidates, (3) secondary retrieval with the refined query, and (4) LLM verification and reranking over the union of candidates. Evaluated on the multimodal-to-text track of MM-BRIGHT (2,803 real-world queries across 29 technical domains), HIVE achieves a new state-of-the-art aggregated nDCG@10 of \textbf{41.7} -- a \textbf{+9.5} point gain over the best text-only model (DiVeR: 32.2) and \textbf{+14.1} over the best multimodal model (Nomic-Vision: 27.6), where our reasoning-enhanced base retriever contributes 33.2 and the HIVE framework adds a further \textbf{+8.5} points -- with particularly strong results in visually demanding domains (Gaming: 68.2, Chemistry: 42.5, Sustainability: 49.4). Compatible with both standard and reasoning-enhanced retrievers, HIVE demonstrates that LLM-mediated visual hypothesis generation and verification can substantially close the multimodal reasoning gap in retrieval. https://github.com/mm-bright/multimodal-reasoning-retrieval
Abstract（参考訳）: マルチモーダル検索モデルは、画像(図、チャート、スクリーンショット)が関連する文書を特定するためにテキストと深く統合されなければならない推論集約クエリでは失敗する。 LLMを通してレトリバーに明示的な視覚的テキスト推論を注入するプラグイン・アンド・プレイのフレームワークである。 HIVE は,(1) コーパス上の初期検索,(2) トップ$k$ の候補で観測される視覚的および論理的ギャップを明確に表現する LLM ベースの補償クエリ合成,(3) 洗練されたクエリによる二次検索,(4) LLM の検証と再評価の4段階からなる。 HIVEはMM-BRIGHT (29の技術的領域にわたる2,803の実世界のクエリ)のマルチモーダル・トゥ・テキスト・トラックに基づいて評価され、新しい最先端の集約されたnDCG@10 of \textbf{41.7} -- a \textbf{+9.5}ポイントが最高のテキストのみのモデル (DiVeR: 32.2) と、最良のマルチモーダルモデル (Nomic-Vision: 27.6) に対して獲得される。 HIVEは,LLMによる視覚仮説の生成と検証が,検索におけるマルチモーダル推論のギャップを大幅に埋めることを示した。 https://github.com/mm-bright/multimodal-reasoning-retrieval

関連論文リスト

BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment [5.285385905661152]
最高の視覚言語エンコーダはMM-BRIGHT上で27.6 nDCG@10しか達成せず、強いテキストのみのレシーバーよりも優れています。マルチモーダルエンコーダを使わずにこのミスマッチを解消する2成分システムである textbfBRIDGE を提案する。 textbfFORGEは強化学習によって訓練されたクエリアライメントモデルであり、ノイズの多いマルチモーダルクエリをコンパクトで検索最適化された検索文字列に蒸留する。 textbfLENSは、ForGEが生成するインテントリッチクエリを処理するために、推論集約検索データに基づいて微調整された、推論強化の高密度レトリバーである。
論文参考訳（メタデータ） (2026-04-08T15:28:21Z)
MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL [5.5504253907902275]
我々は, LLM によるクエリ拡張, textbfMARVEL-Retriever と GPT-4o ベースのチェーン・オブ・シント・リランクを組み合わせた統合パイプラインである textbfMARVEL (textbfMultimodal textbfAdaptive textbfReasoning-intensitextbfVe textbfExpand-rerank and retrievatextbfL) を紹介する。
論文参考訳（メタデータ） (2026-04-08T13:35:09Z)
MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文参考訳（メタデータ） (2026-03-05T21:43:02Z)
MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval [18.53521844184766]
MM-BRIGHTは推論集約検索のための最初のマルチモーダルベンチマークである。我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2026-01-14T15:31:54Z)
Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems [0.0]
本稿では,マルチモーダルRAGシステムにおける2つの検索手法の比較分析を行う。直接マルチモーダル埋め込み検索は、LLM-summary-based approachよりも大幅に優れている。
論文参考訳（メタデータ） (2025-11-20T18:56:49Z)
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文参考訳（メタデータ） (2025-10-04T04:30:13Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。 LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。