論文の概要: MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
- arxiv url: http://arxiv.org/abs/2410.08182v1
- Date: Thu, 10 Oct 2024 17:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:34:33.586224
- Title: MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
- Title(参考訳): MRAG-Bench:検索拡張マルチモーダルモデルの視覚中心評価
- Authors: Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou, Mohsen Fayyaz, Pan Lu, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
- 参考スコア(独自算出の注目度): 115.16022378880376
- License:
- Abstract: Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs' ability to utilize retrieved visual knowledge more effectively.
- Abstract(参考訳): 既存のマルチモーダル検索ベンチマークは主に、モデルが質問応答のために外部のテキスト知識を検索し活用できるかどうかを評価することに焦点を当てている。
しかし、視覚的な情報を取得することは、テキストデータよりも有益なか、アクセスしやすいシナリオがある。
本稿では,マルチモーダル検索拡張生成ベンチマークであるMRAG-Benchを紹介し,視覚的に強化された知識がテキスト知識よりも優れているシナリオを系統的に同定し分類する。
MRAG-Benchは、9つの異なるシナリオにまたがる16,130の画像と1,353の人間による注釈付き多重選択質問で構成されている。
MRAG-Benchでは、10個のオープンソースと4つのプロプライエタリな大規模視覚言語モデル(LVLM)の評価を行う。
以上の結果から, MRAG-Benchが視覚中心であることが確認できた。
さらにMRAG-Benchを用いて広範囲な解析を行い,LVLMの検索に有用であることを示す。
特に、トップパフォーマンスモデルであるGPT-4oは、抽出された知識を効果的に活用する上での課題に直面しており、人間の被験者が観察した33.16%の改善とは対照的に、5.82%の改善しか達成していない。
これらの知見は,LVLMの視覚的知識をより効果的に活用する能力を高めるために,MRAG-Benchの重要性を強調した。
関連論文リスト
- Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation [14.448198170932226]
Think-on-Graph 2.0 (ToG-2) は、構造化されていない知識ソースと構造化されていない知識ソースの両方から情報を反復的に取得するハイブリッドRAGフレームワークである。
ToG-2は、グラフ検索とコンテキスト検索の交互に、質問に関連する詳細な手がかりを検索する。
GPT-3.5を用いて、7つの知識集約データセットのうち6つにおいて、ToG-2が最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-15T15:20:40Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。
法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文 参考訳(メタデータ) (2024-04-19T13:27:38Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。