論文の概要: Evaluating Multimodal Large Language Models with Daily Composite Tasks in Home Environments
- arxiv url: http://arxiv.org/abs/2509.17425v1
- Date: Mon, 22 Sep 2025 07:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.25983
- Title: Evaluating Multimodal Large Language Models with Daily Composite Tasks in Home Environments
- Title(参考訳): 家庭環境における日次複合タスクを用いたマルチモーダル大言語モデルの評価
- Authors: Zhenliang Zhang, Yuxi Wang, Hongzhao Xie, Shiyun Zhao, Mingyuan Liu, Yujie Lu, Xinyi He, Zhenku Cheng, Yujia Peng,
- Abstract要約: 幼児期における日常活動に触発された複合作業のセットを設計する。
動的でシミュレーションされた家庭環境の中で、これらのタスクは3つの中核領域(オブジェクト理解、空間知性、社会活動)にまたがる。
我々は、これらのタスクにおいて17のプロプライエタリかつオープンソースのMLLMを評価し、その結果は3つの領域すべてで一貫してパフォーマンスが悪く、現在の能力と汎用インテリジェンス要件の間に大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 22.833316179836704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key feature differentiating artificial general intelligence (AGI) from traditional AI is that AGI can perform composite tasks that require a wide range of capabilities. Although embodied agents powered by multimodal large language models (MLLMs) offer rich perceptual and interactive capabilities, it remains largely unexplored whether they can solve composite tasks. In the current work, we designed a set of composite tasks inspired by common daily activities observed in early childhood development. Within a dynamic and simulated home environment, these tasks span three core domains: object understanding, spatial intelligence, and social activity. We evaluated 17 leading proprietary and open-source MLLMs on these tasks. The results consistently showed poor performance across all three domains, indicating a substantial gap between current capabilities and general intelligence requirements. Together, our tasks offer a preliminary framework for evaluating the general capabilities of embodied agents, marking an early but significant step toward the development of embodied MLLMs and their real-world deployment.
- Abstract(参考訳): 従来のAIと人工知能(AGI)を区別する重要な特徴は、AGIが幅広い能力を必要とする複合タスクを実行できることである。
マルチモーダル大言語モデル (MLLM) を利用したエンボディエージェントは、知覚的かつインタラクティブな機能を提供しているが、複合的なタスクを解くことができるかどうかはまだ明らかになっていない。
本研究は,幼少期における日常活動から着想を得た複合作業のセットを設計した。
動的でシミュレーションされた家庭環境の中で、これらのタスクは3つの中核領域(オブジェクト理解、空間知性、社会活動)にまたがる。
これらの課題に対して,プロプライエタリでオープンソースなMLLMを17件評価した。
結果は3つの領域で一貫してパフォーマンスが悪く、現在の能力と汎用インテリジェンス要件の間に大きなギャップがあることを示唆している。
我々のタスクは、具体化エージェントの一般的な能力を評価するための予備的なフレームワークを提供し、具体化MLLMの開発と実世界の展開に向けて、早い段階で重要な一歩を踏み出した。
関連論文リスト
- Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use [64.20714385692634]
ToolScopeは、グローバルな計画とローカルなマルチモーダル認識を統合するために設計されたエージェントフレームワークである。
我々は、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む4つのVQAベンチマークでToolScopeを評価する。
論文 参考訳(メタデータ) (2025-10-31T10:51:27Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。