論文の概要: MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval
- arxiv url: http://arxiv.org/abs/2601.09562v1
- Date: Wed, 14 Jan 2026 15:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.450245
- Title: MM-BRIGHT: A Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval
- Title(参考訳): MM-BRIGHT:Reasoning-Intensive Retrievalのためのマルチタスクマルチモーダルベンチマーク
- Authors: Abdelrahman Abdallah, Mohamed Darwish Mounis, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Mostafa Farouk Senussi, Mohamed Mahmoud, Mohammed Ali, Adam Jatowt, Hyun-Soo Kang,
- Abstract要約: MM-BRIGHTは推論集約検索のための最初のマルチモーダルベンチマークである。
我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されています。
- 参考スコア(独自算出の注目度): 18.53521844184766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing retrieval benchmarks primarily consist of text-based queries where keyword or semantic matching is usually sufficient. Many real-world queries contain multimodal elements, particularly, images such as diagrams, charts, and screenshots that require intensive reasoning to identify relevant documents. To address this gap, we introduce MM-BRIGHT, the first multimodal benchmark for reasoning-intensive retrieval. Our dataset consists of 2,803 real-world queries spanning 29 diverse technical domains, with four tasks of increasing complexity: text-to-text, multimodal-to-text, multimodal-to-image, and multimodal-to-multimodal retrieval. Extensive evaluation reveals that state-of-the-art models struggle across all tasks: BM25 achieves only 8.5 nDCG@10 on text-only retrieval, while the best multimodal model Nomic-Vision reaches just 27.6 nDCG@10 on multimodal-to-text retrieval actually underperforming the best text-only model (DiVeR: 32.2). These results highlight substantial headroom and position MM-BRIGHT as a testbed for next-generation retrieval models that better integrate visual reasoning. Our code and data are available at https://github.com/mm-bright/MM-BRIGHT. See also our official website: https://mm-bright.github.io/.
- Abstract(参考訳): 既存の検索ベンチマークは主にテキストベースのクエリで構成されており、キーワードやセマンティックマッチングは通常十分である。
多くの実世界のクエリにはマルチモーダルな要素、特に図、チャート、関連するドキュメントを特定するために集中的な推論を必要とするスクリーンショットなどが含まれている。
このギャップに対処するために、推論集約検索のための最初のマルチモーダルベンチマークであるMM-BRIGHTを導入する。
我々のデータセットは29の技術的領域にまたがる2,803の現実世界のクエリで構成されており、テキスト・トゥ・テキスト、マルチモーダル・トゥ・テキスト、マルチモーダル・トゥ・イメージ、マルチモーダル・トゥ・マルチモーダル検索の4つのタスクが複雑化する。
BM25はテキストのみの検索で8.5 nDCG@10しか達成していないのに対し、最高のマルチモーダルモデルであるNomic-Visionは、マルチモーダルからテキストへの検索で27.6 nDCG@10にしか達していない(DiVeR: 32.2)。
これらの結果は、視覚的推論をよりうまく統合する次世代検索モデルのテストベッドとして、かなりのヘッドルームと位置MM-BRIGHTを際立たせている。
私たちのコードとデータはhttps://github.com/mm-bright/MM-BRIGHT.comで公開されています。
公式ウェブサイト(https://mm-bright.github.io/)も参照。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。