論文の概要: Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.04466v1
- Date: Tue, 03 Mar 2026 22:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.908237
- Title: Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation
- Title(参考訳): Act-Observe-Rewrite:ロボット操作におけるインコンテキストポリシー学習者としてのマルチモーダルコーディングエージェント
- Authors: Vaishak Kumar,
- Abstract要約: 本稿では、LLMエージェントがロボット操作ポリシーを改善するためのフレームワークであるAct-Observe-Rewrite(AOR)を提案する。
AORはLLM推論の単位として、完全な低レベルモーター制御を実装している。
エージェントは、デモンストレーション、報酬工学、勾配更新なしで高い成功率を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a multimodal language model learn to manipulate physical objects by reasoning about its own failures-without gradient updates, demonstrations, or reward engineering? We argue the answer is yes, under conditions we characterise precisely. We present Act-Observe-Rewrite (AOR), a framework in which an LLM agent improves a robot manipulation policy by synthesising entirely new executable Python controller code between trials, guided by visual observations and structured episode outcomes. Unlike prior work that grounds LLMs in pre-defined skill libraries or uses code generation for one-shot plan synthesis, AOR makes the full low-level motor control implementation the unit of LLM reasoning, enabling the agent to change not just what the robot does, but how it does it. The central claim is that interpretable code as the policy representation creates a qualitatively different kind of in-context learning from opaque neural policies: the agent can diagnose systematic failures and rewrite their causes. We validate this across three robosuite manipulation tasks and report promising results, with the agent achieving high success rates without demonstrations, reward engineering, or gradient updates.
- Abstract(参考訳): マルチモーダル言語モデルは、勾配の更新、デモ、報酬エンジニアリングなしで、自身の失敗を推論することで、物理的なオブジェクトを操作することを学べるだろうか?
答えは「イエス」であり、条件下では正確に特徴付けする。
本稿では,LLMエージェントが,視覚的観察と構造化エピソード結果によってガイドされる試験の間に,完全に実行可能なPythonコントローラコードを合成することにより,ロボット操作ポリシーを改善するためのフレームワークであるAct-Observe-Rewrite(AOR)を提案する。
事前定義されたスキルライブラリやワンショットプラン合成にコード生成を使用する以前の作業とは異なり、AORはLLM推論の単位として完全な低レベルモーター制御の実装を作成し、エージェントがロボットが何をしているかだけでなくどのように行うかを変更することができる。
中心的な主張は、ポリシー表現としての解釈可能なコードは、不透明なニューラルポリシーから定性的に異なるインコンテキスト学習を生み出す、ということだ。
3つのロボスーツ操作タスクにまたがってこれを検証し、有望な結果を報告し、エージェントはデモンストレーション、報酬エンジニアリング、勾配更新なしで高い成功率を達成する。
関連論文リスト
- MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation [0.0]
MALLVIはクローズドループフィードバック駆動ロボット操作を可能にするフレームワークを提供する。
単一のモデルを使用するのではなく、MALLVIは特別なエージェントをコーディネートし、知覚、局所化、推論、高レベルの計画を管理する。
論文 参考訳(メタデータ) (2026-02-18T21:28:56Z) - Demonstration-Free Robotic Control via LLM Agents [0.0]
FAEA (Frontier Agent as Embodied Agent) を導入する。
FAEAは、特権環境の状態アクセスにより、それぞれ84.9%、85.7%、96%の成功率を達成した。
この結果から,汎用エージェントは,熟考的タスクレベルの計画に支配される操作タスクのクラスに十分であることが示唆された。
論文 参考訳(メタデータ) (2026-01-28T07:49:35Z) - ALRM: Agentic LLM for Robotic Manipulation [3.7473235317736058]
大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。
大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。
論文 参考訳(メタデータ) (2026-01-27T11:54:14Z) - RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation [7.650053106303868]
大規模言語モデル(LLM)は、推論とコード生成において顕著な能力を示す。
進歩にも拘わらず、信頼性の高いポリシコード生成を実現することは、さまざまな要件のために依然として大きな課題である。
LLM対応ロボット操作におけるポリシーコードの信頼性の欠如を明らかにするパイプラインであるRoboInspectorを紹介する。
論文 参考訳(メタデータ) (2025-08-29T07:47:17Z) - In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。
所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。
また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文 参考訳(メタデータ) (2024-07-15T17:59:57Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。