論文の概要: CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
- arxiv url: http://arxiv.org/abs/2510.26160v1
- Date: Thu, 30 Oct 2025 05:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.673781
- Title: CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
- Title(参考訳): CRAG-MM:Multi-modal Multi-turn Comprehensive RAG Benchmark
- Authors: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong,
- Abstract要約: CRAG-MMはマルチモーダル・マルチターン対話のための総合的なベンチマークである。
様々な6.5K(画像、質問、回答)のトリプルと、13ドメインにわたる2Kビジュアルベースのマルチターン会話を含んでいる。
CRAG-MM単ターンQAと多ターンQAの32%と43%の正当性しか得られていない。
- 参考スコア(独自算出の注目度): 40.39824337939749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.
- Abstract(参考訳): スマートグラスのようなウェアラブルデバイスは、人々が周囲と対話する方法を変え、ユーザーが自分のビュー内のエンティティに関する情報を検索できるようにする。
MM-RAG(Multi-Modal Retrieval-Augmented Generation)は,このような質問を支援する上で重要な役割を担っている。
このギャップを埋めるために、マルチモーダルマルチターン会話のための包括的RAGベンチマークであるCRAG-MMを提案する。
CRAG-MMは、13ドメインにわたる6.5K(画像、質問、回答)と2K視覚ベースのマルチターン会話の多様なセットを含んでいる。
5種類の画像品質問題、6種類の質問タイプ、様々なエンティティの人気、異なる情報ダイナミズム、異なる会話ターンを含む、現実のシナリオと課題を反映する質問を慎重に構築した。
単一ソース拡張、複数ソース拡張、マルチターン会話という3つのタスクを設計し、それぞれに関連する検索コーパスとAPIを組み合わせて、画像-KG検索とWebページ検索を行う。
以上の結果から, CRAG-MM単ターンQAと多ターンQAでは, RAGアプローチが32%, 43%の真正性しか得られていないのに対し, 最先端の産業ソリューションは32%/45%と同等の品質であり, 改善の余地が十分にあることが示された。
このベンチマークではKDDカップ2025が開催され、約1Kの参加者と5Kの応募者を集め、勝利したソリューションはベースラインのパフォーマンスを28%改善し、フィールドの前進に対する初期の影響を強調した。
関連論文リスト
- QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering [27.567923098020586]
本稿では,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。
テキストと画像検索エージェントをハイブリッド化することにより,マルチモーダル,マルチターン,マルチホップ推論をサポートする。
KDDカップ2025におけるメタCRAG-MMチャレンジの枠組みを評価する。
論文 参考訳(メタデータ) (2025-08-07T09:32:49Z) - Solution for Meta KDD Cup'25: A Comprehensive Three-Step Framework for Vision Question Answering [7.481274094559558]
本稿ではBlackPearlチームによるMeta KDD Cup'25における全タスクの解について述べる。
各タスクに1つのモデルを使用し、データ拡張、RAG、再ランク付け、微調整を含む主要なメソッドを扱います。
提案手法は,3つのタスクにおいて3位,3位,1位の自動評価を達成し,人的評価の後,第3タスクで2位を獲得した。
論文 参考訳(メタデータ) (2025-07-29T06:07:59Z) - Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG [3.9063541371093184]
本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。
この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
論文 参考訳(メタデータ) (2025-07-27T05:45:45Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。
さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。
LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。