論文の概要: MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V
- arxiv url: http://arxiv.org/abs/2311.13951v1
- Date: Thu, 23 Nov 2023 12:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:55:15.035165
- Title: MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V
- Title(参考訳): GPT-4Vを用いたマルチモーダルLCMのMLLM-Bench評価
- Authors: Wentao Ge, Shunian Chen, Guiming Chen, Junying Chen, Zhihong Chen,
Shuo Yan, Chenghao Zhu, Ziyue Lin, Wenya Xie, Xidong Wang, Anningzhe Gao,
Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang
- Abstract要約: 視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
- 参考スコア(独自算出の注目度): 44.0908994116986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of Artificial General Intelligence (AGI), the integration of
vision in language models has marked a significant milestone. The advent of
vision-language models (MLLMs) like GPT-4V have expanded AI applications,
aligning with the multi-modal capabilities of the human brain. However,
evaluating the efficacy of MLLMs poses a substantial challenge due to the
subjective nature of tasks that lack definitive answers. Existing automatic
evaluation methodologies on multi-modal large language models rely on objective
queries that have standard answers, inadequately addressing the nuances of
creative and associative multi-modal tasks. To address this, we introduce
MLLM-Bench, an innovative benchmark inspired by Vicuna, spanning a diverse
array of scenarios, including Perception, Understanding, Applying, Analyzing,
Evaluating, and Creation along with the ethical consideration. MLLM-Bench is
designed to reflect user experience more accurately and provide a more holistic
assessment of model performance. Comparative evaluations indicate a significant
performance gap between existing open-source models and GPT-4V. We posit that
MLLM-Bench will catalyze progress in the open-source community towards
developing user-centric vision-language models that meet a broad spectrum of
real-world applications. See online leaderboard in
\url{https://mllm-bench.llmzoo.com}.
- Abstract(参考訳): AI(Artificial General Intelligence)の追求において、言語モデルにおけるビジョンの統合は重要なマイルストーンとなった。
GPT-4Vのような視覚言語モデル(MLLM)の出現は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
しかし、MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
既存のマルチモーダルな大規模言語モデルの自動評価手法は、創造的で連想的なマルチモーダルタスクのニュアンスに不適切に対処する、標準回答を持つ客観的クエリに依存している。
これに対処するため、我々はmllm-benchを紹介する。これはvicunaに触発された革新的なベンチマークで、認識、理解、適用、分析、評価、創造を含む様々なシナリオにまたがる。
MLLM-Benchは、ユーザエクスペリエンスをより正確に反映し、モデルパフォーマンスのより包括的な評価を提供するように設計されている。
比較評価は、既存のオープンソースモデルとgpt-4vの大幅な性能差を示している。
我々は,MLLM-Benchがオープンソースコミュニティの進展をきっかけに,現実世界の幅広いアプリケーションに対応するユーザ中心の視覚言語モデルを開発することを仮定する。
online leaderboard in \url{https://mllm-bench.llmzoo.com} を参照。
関連論文リスト
- PCA-Bench: Evaluating Multimodal Large Language Models in
Perception-Cognition-Action Chain [37.448177723993346]
MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。
タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。
自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
論文 参考訳(メタデータ) (2024-02-21T07:09:58Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。