Fugu-MT 論文翻訳(概要): MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation

論文の概要: MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation

arxiv url: http://arxiv.org/abs/2502.04176v2
Date: Mon, 21 Apr 2025 12:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 15:07:02.168597
Title: MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation
Title（参考訳）: MRAMG-Bench:マルチモーダル検索強化マルチモーダル生成のための総合ベンチマーク
Authors: Qinhan Yu, Zhiyou Xiao, Binghui Li, Zhengren Wang, Chong Chen, Wentao Zhang,
Abstract要約: 本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。我々は,コーパス内のマルチモーダルデータを完全に活用して,テキストと画像を組み合わせたマルチモーダルな回答を生成することを目指している。厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んでいる。
参考スコア（独自算出の注目度）: 19.745059794932807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Retrieval-Augmented Generation (RAG) have significantly improved response accuracy and relevance by incorporating external knowledge into Large Language Models (LLMs). However, existing RAG methods primarily focus on generating text-only answers, even in Multimodal Retrieval-Augmented Generation (MRAG) scenarios, where multimodal elements are retrieved to assist in generating text answers. To address this, we introduce the Multimodal Retrieval-Augmented Multimodal Generation (MRAMG) task, in which we aim to generate multimodal answers that combine both text and images, fully leveraging the multimodal data within a corpus. Despite growing attention to this challenging task, a notable lack of a comprehensive benchmark persists for effectively evaluating its performance. To bridge this gap, we provide MRAMG-Bench, a meticulously curated, human-annotated benchmark comprising 4,346 documents, 14,190 images, and 4,800 QA pairs, distributed across six distinct datasets and spanning three domains: Web, Academia, and Lifestyle. The datasets incorporate diverse difficulty levels and complex multi-image scenarios, providing a robust foundation for evaluating the MRAMG task. To facilitate rigorous evaluation, MRAMG-Bench incorporates a comprehensive suite of both statistical and LLM-based metrics, enabling a thorough analysis of the performance of generative models in the MRAMG task. Additionally, we propose an efficient and flexible multimodal answer generation framework that can leverage LLMs/MLLMs to generate multimodal responses. Our datasets and complete evaluation results for 11 popular generative models are available at https://github.com/MRAMG-Bench/MRAMG.
Abstract（参考訳）: 近年のRAG(Retrieval-Augmented Generation)の進歩は,外部知識をLLM(Large Language Models)に組み込むことで,応答精度と関連性を大幅に向上させた。しかし、既存のRAG法は主にテキストのみの回答を生成することに重点を置いており、マルチモーダル要素を検索してテキスト応答を生成するMRAG(Multimodal Retrieval-Augmented Generation)のシナリオにも当てはまる。そこで我々は,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを導入する。この課題に注目が集まる一方で、包括的なベンチマークが欠如していることが、パフォーマンスを効果的に評価している。このギャップを埋めるために、私たちはMRAMG-Benchという、細心の注意を払ってキュレートされた、人間による注釈付きベンチマークを提供しています。4,346のドキュメント、14,190の画像、および4,800のQAペアで、6つの異なるデータセットに分散し、3つのドメインにまたがるWeb、Academia、Lifestyleです。データセットにはさまざまな難易度と複雑なマルチイメージシナリオが含まれており、MRAMGタスクを評価するための堅牢な基盤を提供する。厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んで、MRAMGタスクにおける生成モデルの性能を徹底的に分析する。さらに,LLM/MLLMを利用してマルチモーダル応答を生成する,効率的で柔軟なマルチモーダル応答生成フレームワークを提案する。 11の一般的な生成モデルに対するデータセットと完全な評価結果がhttps://github.com/MRAMG-Bench/MRAMGで公開されている。

関連論文リスト

Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework [22.366142327629486]
マルチモーダルDeepResearcherは、タスクを調査、文書化、計画、マルチモーダルレポート生成という4つの段階に分解する。ベースライン方式よりも82%の総合的な勝利率を達成する。
論文参考訳（メタデータ） (2025-06-03T05:18:19Z)
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文参考訳（メタデータ） (2025-03-26T02:43:09Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。 M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳（メタデータ） (2025-02-17T22:10:47Z)
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳（メタデータ） (2025-02-12T22:33:41Z)
Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文参考訳（メタデータ） (2024-11-22T04:09:23Z)
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。マルチモーダルなQ&Aデータセットとパブリックセーフティベンチマークによる評価は、CUE-Mが精度、知識統合、安全性のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2024-11-19T07:16:48Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。 Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文参考訳（メタデータ） (2024-10-29T11:03:31Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。