論文の概要: EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots
- arxiv url: http://arxiv.org/abs/2601.21570v1
- Date: Thu, 29 Jan 2026 11:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.770169
- Title: EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots
- Title(参考訳): EmboCoach-Bench: ロボット開発のためのAIエージェントのベンチマーク
- Authors: Zixing Lei, Genjia Liu, Yuanshuo Zhang, Qipeng Liu, Chuan Wen, Shanghang Zhang, Wenzhao Lian, Siheng Chen,
- Abstract要約: Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
- 参考スコア(独自算出の注目度): 68.29056647487519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Embodied AI is witnessing a rapid evolution toward general-purpose robotic systems, fueled by high-fidelity simulation and large-scale data collection. However, this scaling capability remains severely bottlenecked by a reliance on labor-intensive manual oversight from intricate reward shaping to hyperparameter tuning across heterogeneous backends. Inspired by LLMs' success in software automation and science discovery, we introduce \textsc{EmboCoach-Bench}, a benchmark evaluating the capacity of LLM agents to autonomously engineer embodied policies. Spanning 32 expert-curated RL and IL tasks, our framework posits executable code as the universal interface. We move beyond static generation to assess a dynamic closed-loop workflow, where agents leverage environment feedback to iteratively draft, debug, and optimize solutions, spanning improvements from physics-informed reward design to policy architectures such as diffusion policies. Extensive evaluations yield three critical insights: (1) autonomous agents can qualitatively surpass human-engineered baselines by 26.5\% in average success rate; (2) agentic workflow with environment feedback effectively strengthens policy development and substantially narrows the performance gap between open-source and proprietary models; and (3) agents exhibit self-correction capabilities for pathological engineering cases, successfully resurrecting task performance from near-total failures through iterative simulation-in-the-loop debugging. Ultimately, this work establishes a foundation for self-evolving embodied intelligence, accelerating the paradigm shift from labor-intensive manual tuning to scalable, autonomous engineering in embodied AI field.
- Abstract(参考訳): Embodied AIの分野は、高忠実度シミュレーションと大規模データ収集によって、汎用ロボットシステムへの急速な進化を目撃している。
しかし、このスケーリング能力は、複雑な報酬形成からヘテロジニアスバックエンド間のハイパーパラメータチューニングまで、労働集約的な手作業の監視に依存しているため、依然として深刻なボトルネックとなっている。
ソフトウェア自動化と科学発見におけるLLMの成功に触発されて、私たちは、実装されたポリシーを自律的にエンジニアリングするLLMエージェントの能力を評価するベンチマークである、‘textsc{EmboCoach-Bench}’を紹介した。
専門家による32のRLタスクとILタスクに対処するため、我々のフレームワークは実行可能コードをユニバーサルインターフェースとして提案する。
エージェントは環境フィードバックを利用して反復的にドラフトを作成し、デバッグし、ソリューションを最適化し、物理インフォームド報酬設計から拡散ポリシーのようなポリシーアーキテクチャまで改善する。
1) 自律型エージェントは, 平均成功率26.55%を定性的に上回り, 2) 環境フィードバックを伴うエージェントワークフローは, 政策開発を効果的に強化し, オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを著しく狭め, (3) エージェントは, 病理工学的事例に対する自己補正能力を示し, 繰り返しシミュレーション・イン・ザ・ループデバッギングによるタスクパフォーマンスの回復に成功している。
最終的に、この研究は、インボディードインテリジェンスを自己進化させる基盤を確立し、インボディードAI分野における、労働集約的なマニュアルチューニングからスケーラブルで自律的なエンジニアリングへのパラダイムシフトを加速させる。
関連論文リスト
- EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience [44.734653745434834]
本稿では,ネイティブコンピュータ利用エージェントモデルであるEvoCUAを紹介する。
静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己持続的な進化サイクルに統合する。
EvoCUAは以前の最高のオープンソースモデルであるOpenCUA-72Bを大きく上回っている。
論文 参考訳(メタデータ) (2026-01-22T11:36:43Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - A Path Less Traveled: Reimagining Software Engineering Automation via a Neurosymbolic Paradigm [9.900581015679935]
本稿では,ニューロシンボリック・ソフトウェア・エンジニアリングを,ニューラルネットワークとシンボリック(ルールベース)推論を組み合わせた有望なパラダイムとして提案する。
このハイブリッド方法論は、AI駆動ソフトウェアエンジニアリングの効率性、信頼性、透明性を高めることを目的としている。
論文 参考訳(メタデータ) (2025-05-04T22:10:21Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - A Multi-AI Agent System for Autonomous Optimization of Agentic AI Solutions via Iterative Refinement and LLM-Driven Feedback Loops [3.729242965449096]
本稿では,産業間におけるエージェントAIソリューションを自律的に最適化するフレームワークを提案する。
このフレームワークは、仮説を自律的に生成し、テストすることで、人間の入力なしに最適な性能を達成する。
ケーススタディでは、アウトプットの品質、妥当性、動作性が大幅に改善された。
論文 参考訳(メタデータ) (2024-12-22T20:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。