論文の概要: CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.22435v1
- Date: Mon, 23 Mar 2026 18:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.131061
- Title: CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation
- Title(参考訳): CaP-X:ロボット操作のためのコーディングエージェントのベンチマークと改善のためのフレームワーク
- Authors: Max Fu, Justin Yu, Karim El-Refai, Ethan Kou, Haoru Xue, Huang Huang, Wenli Xiao, Guanzhi Wang, Fei-Fei Li, Guanya Shi, Jiajun Wu, Shankar Sastry, Yuke Zhu, Ken Goldberg, Linxi "Jim" Fan,
- Abstract要約: "Code-as-Policy" は、実行可能コードがデータ集約型のVision-Language-Actionメソッドを補完する方法について考察している。
ロボット操作におけるCode-as-PolicyエージェントのオープンアクセスフレームワークであるCaP-Xを提案する。
- 参考スコア(独自算出の注目度): 48.85772216740915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Code-as-Policy" considers how executable code can complement data-intensive Vision-Language-Action (VLA) methods, yet their effectiveness as autonomous controllers for embodied manipulation remains underexplored. We present CaP-X, an open-access framework for systematically studying Code-as-Policy agents in robot manipulation. At its core is CaP-Gym, an interactive environment in which agents control robots by synthesizing and executing programs that compose perception and control primitives. Building on this foundation, CaP-Bench evaluates frontier language and vision-language models across varying levels of abstraction, interaction, and perceptual grounding. Across 12 models, CaP-Bench reveals a consistent trend: performance improves with human-crafted abstractions but degrades as these priors are removed, exposing a dependence on designer scaffolding. At the same time, we observe that this gap can be mitigated through scaling agentic test-time computation--through multi-turn interaction, structured execution feedback, visual differencing, automatic skill synthesis, and ensembled reasoning--substantially improves robustness even when agents operate over low-level primitives. These findings allow us to derive CaP-Agent0, a training-free framework that recovers human-level reliability on several manipulation tasks in simulation and on real embodiments. We further introduce CaP-RL, showing reinforcement learning with verifiable rewards improves success rates and transfers from sim2real with minimal gap. Together, CaP-X provides a principled, open-access platform for advancing embodied coding agents.
- Abstract(参考訳): コード・アズ・ポリシィ(Code-as-Policy)は、実行可能コードがデータ集約型ビジョン・ランゲージ・アクション(VLA)メソッドをどのように補完するかを考察するが、それらが具体化された操作のための自律的なコントローラとしての有効性は未解明のままである。
ロボット操作におけるCode-as-Policyエージェントを体系的に研究するためのオープンアクセスフレームワークであるCaP-Xを提案する。
CaP-Gymは、エージェントが知覚とプリミティブを構成するプログラムを合成して実行することによってロボットを制御する対話型環境である。
この基盤の上に構築されたCaP-Benchは、様々なレベルの抽象化、相互作用、知覚的グラウンド化において、フロンティア言語とビジョン言語モデルを評価する。
12モデル全体で、CaP-Benchは一貫性のある傾向を明らかにしている。
同時に,エージェントが低レベルプリミティブ上で動作しても,エージェント間のマルチターンインタラクション,構造化された実行フィードバック,視覚的差異,自動スキル合成,アンサンブル推論などを通じて,このギャップを緩和することができる。
これらの結果から,シミュレーションや実演における操作タスクにおいて,人間レベルの信頼性を回復するトレーニングフリーフレームワークであるCaP-Agent0の導出が可能となった。
さらにCaP-RLを導入し、検証可能な報酬による強化学習により、成功率やsim2realからの移行を最小限のギャップで改善することを示す。
CaP-Xは、エンボディ化されたコーディングエージェントを進化させるための、原則化されたオープンアクセスプラットフォームを提供する。
関連論文リスト
- EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - ALRM: Agentic LLM for Robotic Manipulation [3.7473235317736058]
大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。
大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。
論文 参考訳(メタデータ) (2026-01-27T11:54:14Z) - Multiagent Reinforcement Learning with Neighbor Action Estimation [5.226225544973531]
本稿では,エージェントの振る舞いを推論するための行動推定ニューラルネットワークを用いたマルチエージェント強化学習フレームワークを提案する。
工学的応用レベルでは、このフレームワークはデュアルアームロボット操作タスクで実装され、検証されている。
論文 参考訳(メタデータ) (2026-01-08T02:26:57Z) - Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.209787026732972]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。
この調査はエージェントAI構築におけるパラダイムシフトをトレースする。
それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (2025-10-19T05:23:43Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。