論文の概要: MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2510.09510v1
- Date: Fri, 10 Oct 2025 16:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.33663
- Title: MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval
- Title(参考訳): MRMR:Reasoning-Intensive Multimodal Retrievalのための現実的でエキスパートレベルのマルチディシプリナベンチマーク
- Authors: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao,
- Abstract要約: MRMRは,集中的推論を必要とする,最初のエキスパートレベルのマルチディシプリナマルチモーダル検索ベンチマークである。
さまざまな専門分野にわたる検索システムに挑戦し、ドメイン間のきめ細かいモデル比較を可能にする。
クエリは推論集約的であり、画像は顕微鏡スライドの診断などの深い解釈を必要とする。
- 参考スコア(独自算出の注目度): 87.24221266746686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.
- Abstract(参考訳): MRMRは,集中的推論を必要とする,最初のエキスパートレベルのマルチディシプリナマルチモーダル検索ベンチマークである。
MRMRには23のドメインにまたがる1,502のクエリが含まれている。
これまでのベンチマークと比較すると、MRMRには3つの重要な進歩がある。
まず、さまざまな専門分野にわたる検索システムに挑戦し、ドメイン間のきめ細かいモデル比較を可能にする。
第二に、クエリは推論集約的であり、画像は顕微鏡スライドの診断のようなより深い解釈を必要とする。
さらに、矛盾する概念を特定するためにモデルを必要とする新しいタスクであるContradiction Retrievalを紹介します。
最後に、クエリとドキュメントは画像テキストインターリーブシーケンスとして構成される。
以前のベンチマークではシングルイメージやユニモーダルドキュメントに制限されていたが、MRMRはマルチイメージクエリと混合モダリティコーパスドキュメントによる現実的な設定を提供する。
MRMRを用いたマルチモーダル検索システムとフロンティアモデル14の4カテゴリを広範囲に評価する。
LLM生成画像キャプションを用いたテキスト埋め込みモデルQwen3-Embeddingは高い性能を実現し,マルチモーダル検索モデルを改善するための実質的な余地を浮き彫りにしている。
Ops-MM-Embeddingのような最新のマルチモーダルモデルは、エキスパートドメインクエリでは競合的に機能するが、推論集約的なタスクでは不足している。
MRMRは、より現実的で困難なシナリオにおいて、マルチモーダル検索を進めるための道を開いたと信じている。
関連論文リスト
- M3Retrieve: Benchmarking Multimodal Retrieval for Medicine [20.495948250806325]
マルチモーダル医療検索モデルのベンチマークであるM3Retrieveをリリースする。
M3Retrieveは5つのドメイン、16の医療分野、4つの異なるタスクにまたがる。
本ベンチマークでは,様々な医療分野に特有な課題を探るため,主要なマルチモーダル検索モデルの評価を行った。
論文 参考訳(メタデータ) (2025-10-08T11:08:47Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。