論文の概要: OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
- arxiv url: http://arxiv.org/abs/2508.05614v1
- Date: Thu, 07 Aug 2025 17:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.980854
- Title: OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
- Title(参考訳): OmniEAR: 身体的タスクにおけるベンチマークエージェント推論
- Authors: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
- 参考スコア(独自算出の注目度): 52.87238755666243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.
- Abstract(参考訳): 大規模な言語モデルは抽象的推論において優れているが、その具体的エージェント推論能力はほとんど解明されていない。
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調をどう考えるかを評価するための包括的フレームワークである。
事前に定義されたツールセットや明示的なコラボレーションディレクティブを提供する既存のベンチマークとは異なり、OmniEARではエージェントが動的に能力を取得し、タスク要求に基づいて協調戦略を自律的に決定する必要がある。
テキストベースの環境表現を通じて、家庭や産業領域にまたがる1500のシナリオにまたがる連続的な物理的特性と複雑な空間関係をモデル化する。
明示的な指示で85~96%の成功を達成しながら、ツール推論では56~85%、暗黙的なコラボレーションでは63~85%、複合タスクでは50%以上の失敗率を示す。
驚くべきことに、完全な環境情報は調整性能を低下させ、モデルがタスク関連制約をフィルタリングできないことを示す。
微調整はシングルエージェントタスクを劇的に改善(0.6%から76.3%)するが、最小限のマルチエージェントゲイン(1.5%から5.5%)が得られ、基本的なアーキテクチャ上の制約が生じる。
これらの結果は、具体的推論が現在のモデルと根本的に異なる課題を生じさせ、具体的AIシステムの評価と発展のための厳密なベンチマークとしてOmniEARを確立していることを示している。
私たちのコードとデータは補足資料に含まれており、受け入れ次第オープンソース化されます。
関連論文リスト
- Knowledge Grafting: A Mechanism for Optimizing AI Model Deployment in Resource-Constrained Environments [0.0]
資源制約のある環境でAIモデルを最適化するために知識グラフトを導入する。
このアプローチはモデルサイズを88.54%削減する。
さまざまなエッジコンピューティングシナリオにまたがって拡張することができる。
論文 参考訳(メタデータ) (2025-07-25T13:37:45Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - Towards Building General Purpose Embedding Models for Industry 4.0 Agents [5.212780106286918]
私たちは、エンジニアの意思決定をガイドし、アセットダウンタイムを最小限に抑えるために、アセットメンテナンスに対する言語モデルの理解を改善することに重点を置いています。
産業4.0ドメインの自然言語で表されるタスクの集合が、それぞれ特定の資産に関連するクエリに関連するものであることを前提として、関連する項目を推奨し、類似資産のクエリを一般化したい。
当社のアプローチは,9つのアセット固有のタスクデータセットを構築するために,定性的な専門家による知識ベースを収集することから始まります。
論文 参考訳(メタデータ) (2025-06-14T19:02:07Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - EmbodiedAgent: A Scalable Hierarchical Approach to Overcome Practical Challenge in Multi-Robot Control [4.163413782205929]
EmbodiedAgentは異種マルチロボット制御のための階層的なフレームワークである。
提案手法は,次アクション予測パラダイムと構造化メモリシステムを統合し,タスクを実行可能なロボットスキルに分解する。
100のシナリオにまたがる18,000以上のアノテートされたプランニングインスタンスのデータセットであるMultiPlan+を紹介します。
論文 参考訳(メタデータ) (2025-04-14T09:33:42Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [69.6913064185993]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。