Fugu-MT 論文翻訳(概要): MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

論文の概要: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

arxiv url: http://arxiv.org/abs/2308.02490v4
Date: Sun, 01 Dec 2024 05:46:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.306095
Title: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Title（参考訳）: MM-Vet:統合能力のための大規模マルチモーダルモデルの評価
Authors: Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang,
Abstract要約: 複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
参考スコア（独自算出の注目度）: 153.37868034779385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose MM-Vet, an evaluation benchmark that examines large multimodal models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various intriguing abilities, such as solving math problems written on the blackboard, reasoning about events and celebrities in news images, and explaining visual jokes. Rapid model advancements pose challenges to evaluation benchmark development. Problems include: (1) How to systematically structure and evaluate the complicated multimodal tasks; (2) How to design evaluation metrics that work well across question and answer types; and (3) How to give model insights beyond a simple performance ranking. To this end, we present MM-Vet, designed based on the insight that the intriguing ability to solve complicated tasks is often achieved by a generalist model being able to integrate different core vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and examines the 16 integrations of interest derived from the capability combination. For evaluation metrics, we propose an LLM-based evaluator for open-ended outputs. The evaluator enables the evaluation across different question types and answer styles, resulting in a unified scoring metric. We evaluate representative LMMs on MM-Vet, providing insights into the capabilities of different LMM system paradigms and models.
Abstract（参考訳）: 複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。迅速なモデル開発は、ベンチマーク開発の評価に課題をもたらす。課題は,(1)複雑なマルチモーダルタスクを体系的に構造化し,評価する方法,(2)質問や回答のタイプでうまく機能する評価指標を設計する方法,(3)単純なパフォーマンスランキングを超えたモデルインサイトを提供する方法。この目的のために、複雑なタスクを解く興味深い能力は、様々なコアビジョン言語(VL)機能を統合できるジェネラリストモデルによってしばしば達成されるという知見に基づいて設計されたMM-Vetを提案する。 MM-Vetは6つのコアVL機能を定義し、機能の組み合わせから導かれる16の関心統合を検証している。評価指標として,オープンエンド出力のためのLCMに基づく評価器を提案する。評価器は、異なる質問タイプと回答スタイルで評価が可能であり、その結果、統一されたスコアリング基準となる。我々はMM-Vetにおける代表LMMを評価し、異なるLMMシステムパラダイムとモデルの能力に関する洞察を提供する。

関連論文リスト

MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique [23.270725216274688]
複数の次元にわたるLMMの批評能力を評価するための総合的なベンチマークであるMM-CRITICを導入する。 MM-CRITICはモデルサイズが異なる様々なLMMから応答を収集し、4471のサンプルで構成されている。評価信頼性を高めるため,専門家インフォームドグラウンドの回答をGPT-4oのアノテート応答を誘導するスコアリングルーリックに統合した。
論文参考訳（メタデータ） (2025-11-12T07:43:26Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文参考訳（メタデータ） (2024-05-28T16:55:41Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。 UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。実験の結果,既存のベンチマークで十分な性能を示すほとんどのLMMでも,MM-UPDとはかなり苦労していることがわかった。
論文参考訳（メタデータ） (2024-03-29T17:59:53Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。