論文の概要: Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04280v2
- Date: Fri, 07 Mar 2025 10:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:49.585340
- Title: Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた実世界ロボットマニピュレーションのための自律強化学習に向けて
- Authors: Niccolò Turcato, Matteo Iovino, Aris Synodinos, Alberto Dalla Libera, Ruggero Carli, Pietro Falco,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。
本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
- 参考スコア(独自算出の注目度): 5.2364456910271935
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) and Visual Language Models (VLMs) have significantly impacted robotics, enabling high-level semantic motion planning applications. Reinforcement Learning (RL), a complementary paradigm, enables agents to autonomously optimize complex behaviors through interaction and reward signals. However, designing effective reward functions for RL remains challenging, especially in real-world tasks where sparse rewards are insufficient and dense rewards require elaborate design. In this work, we propose Autonomous Reinforcement learning for Complex HumanInformed Environments (ARCHIE), an unsupervised pipeline leveraging GPT-4, a pre-trained LLM, to generate reward functions directly from natural language task descriptions. The rewards are used to train RL agents in simulated environments, where we formalize the reward generation process to enhance feasibility. Additionally, GPT-4 automates the coding of task success criteria, creating a fully automated, one-shot procedure for translating human-readable text into deployable robot skills. Our approach is validated through extensive simulated experiments on single-arm and bi-manual manipulation tasks using an ABB YuMi collaborative robot, highlighting its practicality and effectiveness. Tasks are demonstrated on the real robot setup.
- Abstract(参考訳): 近年のLarge Language Models (LLM) と Visual Language Models (VLM) の進歩はロボット工学に大きな影響を与え、高度なセマンティック・モーション・プランニング・アプリケーションを実現している。
補完的なパラダイムである強化学習(Reinforcement Learning, RL)は、エージェントが相互作用や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。
しかし、特にスパース報酬が不十分で密度の高い報酬が精巧な設計を必要とする現実的なタスクにおいて、RLの効果的な報酬関数の設計は依然として困難である。
本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLPMであるGPT-4を利用した教師なしパイプラインであるARCHIE(Autonomous Reinforcement Learning for Complex Human Informed Environments)を提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
さらに、GPT-4はタスク成功基準のコーディングを自動化し、人間の読みやすいテキストをデプロイ可能なロボットスキルに翻訳するための完全に自動化されたワンショット手順を作成する。
ABB YuMiコラボレーティブロボットを用いたシングルアームおよびバイマニュアル操作タスクの広範囲なシミュレーション実験により,本手法の有効性と有効性を強調した。
タスクは実際のロボットの設定で示される。
関連論文リスト
- STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion [33.91518509518502]
我々は,人型ロボットの移動作業に対する報酬設計,DRLトレーニング,フィードバック最適化を自動化するために,エージェント工学に基づく新しいフレームワークSTRIDEを紹介する。
エージェントエンジニアリングの構造化された原則と、コード記述、ゼロショット生成、コンテキスト内最適化のための大きな言語モデル(LLM)を組み合わせることで、STRIDEはタスク固有のプロンプトやテンプレートに頼ることなく報酬関数を生成し、評価し、反復的に洗練する。
ヒューマノイドロボットの形態を特徴とする多様な環境において、STRIDEは最先端の報酬設計フレームワークであるEUREKAよりも優れており、ラウンド250%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-02-07T06:37:05Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。