Fugu-MT 論文翻訳(概要): MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

論文の概要: MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

arxiv url: http://arxiv.org/abs/2407.05047v2
Date: Tue, 30 Jul 2024 08:10:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 21:33:36.648177
Title: MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning
Title（参考訳）: MFE-ETP:マルチモーダル・ファンデーション・モデルのための総合的評価ベンチマーク
Authors: Min Zhang, Jianye Hao, Xian Fu, Peilong Han, Hao Zhang, Lei Shi, Hongyao Tang, Yan Zheng,
Abstract要約: 具体的タスクプランニングにおけるMFMの性能について,より深く,包括的に評価する。我々は,その複雑で可変なタスクシナリオを特徴付けるMFE-ETPという新しいベンチマークを提案する。ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
参考スコア（独自算出の注目度）: 50.45558735526665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Multi-modal Foundation Models (MFMs) and Embodied Artificial Intelligence (EAI) have been advancing side by side at an unprecedented pace. The integration of the two has garnered significant attention from the AI research community. In this work, we attempt to provide an in-depth and comprehensive evaluation of the performance of MFM s on embodied task planning, aiming to shed light on their capabilities and limitations in this domain. To this end, based on the characteristics of embodied task planning, we first develop a systematic evaluation framework, which encapsulates four crucial capabilities of MFMs: object understanding, spatio-temporal perception, task understanding, and embodied reasoning. Following this, we propose a new benchmark, named MFE-ETP, characterized its complex and variable task scenarios, typical yet diverse task types, task instances of varying difficulties, and rich test case types ranging from multiple embodied question answering to embodied task reasoning. Finally, we offer a simple and easy-to-use automatic evaluation platform that enables the automated testing of multiple MFMs on the proposed benchmark. Using the benchmark and evaluation platform, we evaluated several state-of-the-art MFMs and found that they significantly lag behind human-level performance. The MFE-ETP is a high-quality, large-scale, and challenging benchmark relevant to real-world tasks.
Abstract（参考訳）: 近年、MFM(Multi-modal Foundation Models)とEmbodied Artificial Intelligence(EAI)は、前例のないペースで並んで進んでいる。この2つの統合は、AI研究コミュニティから大きな注目を集めている。本研究は, 具体的タスク計画において, MFM s の性能を深く, 包括的に評価することを目的としており, この領域におけるその能力と限界に光を当てることを目的としている。そこで本研究では,まず,MFMの4つの重要な機能 – オブジェクト理解,時空間認識,タスク理解,具体的推論 – をカプセル化する,系統的評価フレームワークを開発する。次に,MFE-ETPと呼ばれる新しいベンチマークを提案し,その複雑かつ可変なタスクシナリオ,典型的には多様だが多様なタスクタイプ,難易度が異なるタスクインスタンス,複数の具体的質問応答から具体的タスク推論まで多種多様なテストケースタイプを特徴付ける。最後に、提案したベンチマーク上で複数のMFMの自動テストを可能にする、シンプルで使いやすい自動評価プラットフォームを提供する。ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。 MFE-ETPは、現実世界のタスクに関連する高品質で大規模で挑戦的なベンチマークである。

関連論文リスト

UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs [1.4304078520604593]
心の理論(ToM)は、大きな言語モデル(LLM)にとって難しい領域である。本稿では,SimToMとTOMBENCHの強みを統合する統一ベンチマークUniToMBenchを紹介する。
論文参考訳（メタデータ） (2025-06-11T06:55:40Z)
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [35.686125031177234]
MDS(Multi-Document Summarization)は,複数の文書から有用な情報を抽出・合成することに焦点を当てた課題である。本稿では,このタスクに推論時間スケーリングを利用する新しいフレームワークを提案する。また,新しい評価指標として Consistency-Aware Preference (CAP) スコアと LLM Atom-Content-Unit (ACU) スコアがある。
論文参考訳（メタデータ） (2025-02-27T23:34:47Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。 MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文参考訳（メタデータ） (2024-10-02T19:56:38Z)
A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文参考訳（メタデータ） (2024-09-21T15:22:26Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文参考訳（メタデータ） (2024-05-28T16:55:41Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。