論文の概要: Demonstration-Free Robotic Control via LLM Agents
- arxiv url: http://arxiv.org/abs/2601.20334v1
- Date: Wed, 28 Jan 2026 07:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.825539
- Title: Demonstration-Free Robotic Control via LLM Agents
- Title(参考訳): LLMエージェントによるデモ不要ロボット制御
- Authors: Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu,
- Abstract要約: FAEA (Frontier Agent as Embodied Agent) を導入する。
FAEAは、特権環境の状態アクセスにより、それぞれ84.9%、85.7%、96%の成功率を達成した。
この結果から,汎用エージェントは,熟考的タスクレベルの計画に支配される操作タスクのクラスに十分であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation has increasingly adopted vision-language-action (VLA) models, which achieve strong performance but typically require task-specific demonstrations and fine-tuning, and often generalize poorly under domain shift. We investigate whether general-purpose large language model (LLM) agent frameworks, originally developed for software engineering, can serve as an alternative control paradigm for embodied manipulation. We introduce FAEA (Frontier Agent as Embodied Agent), which applies an LLM agent framework directly to embodied manipulation without modification. Using the same iterative reasoning that enables software agents to debug code, FAEA enables embodied agents to reason through manipulation strategies. We evaluate an unmodified frontier agent, Claude Agent SDK, across the LIBERO, ManiSkill3, and MetaWorld benchmarks. With privileged environment state access, FAEA achieves success rates of 84.9%, 85.7%, and 96%, respectively. This level of task success approaches that of VLA models trained with less than 100 demonstrations per task, without requiring demonstrations or fine-tuning. With one round of human feedback as an optional optimization, performance increases to 88.2% on LIBERO. This demonstration-free capability has immediate practical value: FAEA can autonomously explore novel scenarios in simulation and generate successful trajectories for training data augmentation in embodied learning. Our results indicate that general-purpose agents are sufficient for a class of manipulation tasks dominated by deliberative, task-level planning. This opens a path for robotics systems to leverage actively maintained agent infrastructure and benefit directly from ongoing advances in frontier models. Code is available at https://github.com/robiemusketeer/faea-sim
- Abstract(参考訳): ロボット操作は、強いパフォーマンスを達成するが、通常タスク固有のデモや微調整が必要であり、ドメインシフト下では一般化が不十分である、視覚言語アクション(VLA)モデルの採用が増えている。
ソフトウェア工学のために開発された汎用大規模言語モデル(LLM)エージェントフレームワークが,具体的操作のための代替制御パラダイムとして機能するかどうかを検討する。
FAEA (Frontier Agent as Embodied Agent) を導入する。
ソフトウェアエージェントがコードをデバッグできるのと同じ反復推論を使用することで、FAEAは操作戦略を通じてエージェントが推論できる。
我々は、LIBERO、ManiSkill3、MetaWorldベンチマークで未修正のフロンティアエージェントであるClaude Agent SDKを評価した。
FAEAは、特権環境の状態アクセスにより、それぞれ84.9%、85.7%、96%の成功率を達成した。
このレベルのタスク成功は、デモや微調整を必要とせずに、1タスクあたり100以上のデモでトレーニングされたVLAモデルにアプローチする。
1ラウンドのフィードバックをオプションで最適化することで、LIBEROのパフォーマンスは88.2%向上した。
FAEAは、シミュレーションにおける新しいシナリオを自律的に探索し、具体的学習においてデータ拡張をトレーニングするための軌道を生成することができる。
この結果から,汎用エージェントは,熟考的タスクレベルの計画に支配される操作タスクのクラスに十分であることが示唆された。
これにより、ロボットシステムは、アクティブに維持されているエージェントインフラストラクチャを活用し、フロンティアモデルの継続的な進歩から直接利益を得ることができる。
コードはhttps://github.com/robiemusketeer/faea-simで入手できる。
関連論文リスト
- Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文 参考訳(メタデータ) (2025-11-08T08:49:38Z) - ManiAgent: An Agentic Framework for General Robotic Manipulation [30.154478145473792]
汎用操作のためのエージェントアーキテクチャであるManiAgentを紹介する。
複数のエージェントは、環境認識、サブタスク分解、アクション生成を行うためのエージェント間通信を含む。
ManiAgentはSimplerEnvベンチマークで86.8%、現実世界のピック・アンド・プレイスタスクで95.8%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-13T17:34:48Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations [2.1858709012908903]
我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文 参考訳(メタデータ) (2022-09-24T02:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。