論文の概要: MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL
- arxiv url: http://arxiv.org/abs/2604.07079v1
- Date: Wed, 08 Apr 2026 13:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.556779
- Title: MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL
- Title(参考訳): MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL
- Authors: Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Mostafa Farouk Senussi, Mahmoud Abdalla, Abdelrahman Abdallah, Hyun-Soo Kang,
- Abstract要約: 我々は, LLM によるクエリ拡張, textbfMARVEL-Retriever と GPT-4o ベースのチェーン・オブ・シント・リランクを組み合わせた統合パイプラインである textbfMARVEL (textbfMultimodal textbfAdaptive textbfReasoning-intensitextbfVe textbfExpand-rerank and retrievatextbfL) を紹介する。
- 参考スコア(独自算出の注目度): 5.5504253907902275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal retrieval over text corpora remains a fundamental challenge: the best vision-language encoder achieves only 27.6 nDCG@10 on MM-BRIGHT, a reasoning-intensive multimodal retrieval benchmark, underperforming strong text-only systems. We argue that effective multimodal retrieval requires three tightly integrated capabilities that existing approaches address only in isolation: expanding the query's latent intent, retrieving with a model trained for complex reasoning, and reranking via explicit step-by-step reasoning over candidates. We introduce \textbf{MARVEL} (\textbf{M}ultimodal \textbf{A}daptive \textbf{R}easoning-intensi\textbf{V}e \textbf{E}xpand-rerank and retrieva\textbf{L}), a unified pipeline that combines LLM-driven query expansion, \textbf{MARVEL-Retriever} -- a reasoning-enhanced dense retriever fine-tuned for complex multimodal queries -- and GPT-4o-based chain-of-thought reranking with optional multi-pass reciprocal rank fusion. Evaluated on MM-BRIGHT across 29 technical domains, MARVEL achieves \textbf{37.9} nDCG@10, surpassing the best multimodal encoder by \textbf{+10.3 points} and outperforming all single-stage baselines in 27 of 29 domains and matching or approaching the best baseline in the remaining two highly-specialized domains (Crypto, Quantum Computing), demonstrating that reasoning-intensive multimodal retrieval is best addressed through a unified expand-retrieve-rerank framework. https://github.com/mm-bright/multimodal-reasoning-retrieval
- Abstract(参考訳): 最高の視覚言語エンコーダはMM-BRIGHTで27.6 nDCG@10しか達成していない。
実効的なマルチモーダル検索には,クエリの潜在意図の拡大,複雑な推論のために訓練されたモデルによる検索,および候補に対する明示的なステップバイステップ推論による再評価という,既存のアプローチが単独で対処する3つの密に統合された機能が必要である,と我々は主張する。
LLM駆動型クエリ拡張と組み合わせた統一パイプラインである \textbf{MARVEL} (\textbf{M}ultimodal \textbf{A}daptive \textbf{R}easoning-intensi\textbf{V}e \textbf{E}xpand-rerank and retrieva\textbf{L})、複雑なマルチモーダルクエリ用に微調整された推論強化された高密度レトリバーである \textbf{MARVEL-Retriever} 、GPT-4oをベースとしたチェーン・オブ・シグニケートをオプションのマルチパス相互変換と組み合わせて導入する。
MM-BRIGHT を29の技術的領域で評価し、MARVEL は \textbf{37.9} nDCG@10 を達成し、 \textbf{+10.3 points} で最高のマルチモーダルエンコーダを上回り、29のドメインのうち27のドメインで全てのシングルステージベースラインを上回り、残りの2つの高度に特殊化されたドメイン(クリプト、量子コンピューティング)で最高のベースラインにマッチまたは接近し、推論集約的なマルチモーダル検索は統合された拡張検索参照フレームワークによって最適であることを示した。
https://github.com/mm-bright/multimodal-reasoning-retrieval
関連論文リスト
- HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval [5.5504253907902275]
マルチモーダル検索モデルは、画像が関連する文書を特定するためにテキストと深く統合されなければならない推論集約的なクエリーで失敗する。
textbfHIVE (textbfHypothesis-driven textbfVisual textbfEvidence Retrieval) は,LLMを介してレトリバーに明示的な視覚的テキスト推論を注入するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2026-04-08T15:41:42Z) - BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment [5.285385905661152]
最高の視覚言語エンコーダはMM-BRIGHT上で27.6 nDCG@10しか達成せず、強いテキストのみのレシーバーよりも優れています。
マルチモーダルエンコーダを使わずにこのミスマッチを解消する2成分システムである textbfBRIDGE を提案する。
textbfFORGEは強化学習によって訓練されたクエリアライメントモデルであり、ノイズの多いマルチモーダルクエリをコンパクトで検索最適化された検索文字列に蒸留する。
textbfLENSは、ForGEが生成するインテントリッチクエリを処理するために、推論集約検索データに基づいて微調整された、推論強化の高密度レトリバーである。
論文 参考訳(メタデータ) (2026-04-08T15:28:21Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。
製品ドメインは、上着と下着、宝石、靴、家具の5つ。
MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-01T12:53:47Z) - MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval [18.53521844184766]
MM-BRIGHTは推論集約検索のための最初のマルチモーダルベンチマークである。
我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2026-01-14T15:31:54Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。