Fugu-MT 論文翻訳(概要): MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

論文の概要: MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

arxiv url: http://arxiv.org/abs/2410.08182v1
Date: Thu, 10 Oct 2024 17:55:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 04:55:58.908954
Title: MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
Title（参考訳）: MRAG-Bench:検索拡張マルチモーダルモデルの視覚中心評価
Authors: Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou, Mohsen Fayyaz, Pan Lu, Kai-Wei Chang, Nanyun Peng,
Abstract要約: MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
参考スコア（独自算出の注目度）: 115.16022378880376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs' ability to utilize retrieved visual knowledge more effectively.
Abstract（参考訳）: 既存のマルチモーダル検索ベンチマークは主に、モデルが質問応答のために外部のテキスト知識を検索し活用できるかどうかを評価することに焦点を当てている。しかし、視覚的な情報を取得することは、テキストデータよりも有益なか、アクセスしやすいシナリオがある。本稿では,マルチモーダル検索拡張生成ベンチマークであるMRAG-Benchを紹介し,視覚的に強化された知識がテキスト知識よりも優れているシナリオを系統的に同定し分類する。 MRAG-Benchは、9つの異なるシナリオにまたがる16,130の画像と1,353の人間による注釈付き多重選択質問で構成されている。 MRAG-Benchでは、10個のオープンソースと4つのプロプライエタリな大規模視覚言語モデル(LVLM)の評価を行う。以上の結果から, MRAG-Benchが視覚中心であることが確認できた。さらにMRAG-Benchを用いて広範囲な解析を行い,LVLMの検索に有用であることを示す。特に、トップパフォーマンスモデルであるGPT-4oは、抽出された知識を効果的に活用する上での課題に直面しており、人間の被験者が観察した33.16%の改善とは対照的に、5.82%の改善しか達成していない。これらの知見は,LVLMの視覚的知識をより効果的に活用する能力を高めるために,MRAG-Benchの重要性を強調した。

関連論文リスト

Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文参考訳（メタデータ） (2025-02-28T11:25:38Z)
Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) を拡張するための一般的なアプローチである Visual-RAGは、証拠として視覚知識を抽出するために、テキスト・ツー・イメージ検索と関連する手がかり画像の統合が必要である。
論文参考訳（メタデータ） (2025-02-23T16:23:50Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。 RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-31T14:23:49Z)
Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文参考訳（メタデータ） (2024-04-19T13:27:38Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供しているしかし、真の課題は知識集約型VQAタスクの領域にある。 1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文参考訳（メタデータ） (2023-11-13T18:22:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。