Fugu-MT 論文翻訳(概要): PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

論文の概要: PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

arxiv url: http://arxiv.org/abs/2402.15527v1
Date: Wed, 21 Feb 2024 07:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:19:33.728147
Title: PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
Title（参考訳）: pca-bench:知覚認知行動連鎖におけるマルチモーダル大言語モデルの評価
Authors: Liang Chen and Yichi Zhang and Shuhuai Ren and Haozhe Zhao and Zefan Cai and Yuchi Wang and Peiyi Wang and Xiangdi Meng and Tianyu Liu and Baobao Chang
Abstract要約: MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
参考スコア（独自算出の注目度）: 37.448177723993346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present PCA-Bench, a multimodal decision-making benchmark for evaluating the integrated capabilities of Multimodal Large Language Models (MLLMs). Departing from previous benchmarks focusing on simplistic tasks and individual model capability, PCA-Bench introduces three complex scenarios: autonomous driving, domestic robotics, and open-world games. Given task instructions and diverse contexts, the model is required to seamlessly integrate multiple capabilities of Perception, Cognition, and Action in a reasoning chain to make accurate decisions. Moreover, PCA-Bench features error localization capabilities, scrutinizing model inaccuracies in areas such as perception, knowledge, or reasoning. This enhances the reliability of deploying MLLMs. To balance accuracy and efficiency in evaluation, we propose PCA-Eval, an automatic evaluation protocol, and assess 10 prevalent MLLMs. The results reveal significant performance disparities between open-source models and powerful proprietary models like GPT-4 Vision. To address this, we introduce Embodied-Instruction-Evolution (EIE), an automatic framework for synthesizing instruction tuning examples in multimodal embodied environments. EIE generates 7,510 training examples in PCA-Bench and enhances the performance of open-source MLLMs, occasionally surpassing GPT-4 Vision (+3\% in decision accuracy), thereby validating the effectiveness of EIE. Our findings suggest that robust MLLMs like GPT4-Vision show promise for decision-making in embodied agents, opening new avenues for MLLM research.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の統合能力を評価するためのマルチモーダル意思決定ベンチマークであるPCA-Benchを提案する。 pca-benchは、単純なタスクと個々のモデル能力に焦点を当てた以前のベンチマークから離れて、自動運転、国内ロボット工学、オープンワールドゲームという3つの複雑なシナリオを紹介している。タスク命令と多様なコンテキストを与えられたモデルでは、正確な決定を行うために、知覚、認知、行動の複数の機能をシームレスに統合する必要がある。さらに、PCA-Benchは、認識、知識、推論などの領域におけるモデル不正確性を精査するエラーローカライゼーション機能を備えている。これにより、MLLMのデプロイの信頼性が向上する。評価の精度と効率のバランスをとるために, 自動評価プロトコル pca-eval を提案し, 10 mllm の評価を行う。この結果から、オープンソースモデルとgpt-4 visionのような強力なプロプライエタリモデル間のパフォーマンスの差が明らかになる。そこで本稿では,マルチモーダルな環境下での指導指導例の自動合成フレームワークであるEmbodied-Instruction-Evolution(EIE)を紹介する。 EIEは、PCA-Benchで7,510のトレーニング例を生成し、GPT-4 Vision(+3\%)を超えるオープンソースのMLLMの性能を高め、EIEの有効性を検証する。 GPT4-Visionのような頑健なMLLMは、組込み剤の意思決定を約束し、MLLM研究のための新たな道を開くことを示唆している。

関連論文リスト

An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability [20.760483719891887]
ゼロショットのパラダイムをインコンテキストラーニング(ICL)に拡張し、デモの設定に関する詳細な研究を行う。具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を調査し、最適化する。 MLLMに固有の予測バイアスも発見され、その後効果的に反作用する。
論文参考訳（メタデータ） (2025-05-22T03:51:41Z)
MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。 4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。 MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文参考訳（メタデータ） (2025-05-21T17:59:12Z)
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文参考訳（メタデータ） (2025-03-18T17:51:34Z)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文参考訳（メタデータ） (2025-03-13T12:03:37Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文参考訳（メタデータ） (2023-11-05T16:01:40Z)
Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond [38.85644950457275]
本研究では,最先端MLLMがエンド・ツー・エンド方式で具体的意思決定を処理できるかどうかを検討する。以上の結果から, GPT4-Visionのような強力なMLLMは, 組込みエージェントの意思決定に有効であることがわかった。
論文参考訳（メタデータ） (2023-10-03T14:13:36Z)
MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。 ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文参考訳（メタデータ） (2020-02-19T17:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。