論文の概要: RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic
Manipulations With Large Language Models
- arxiv url: http://arxiv.org/abs/2403.06420v1
- Date: Mon, 11 Mar 2024 04:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:23:24.236439
- Title: RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic
Manipulations With Large Language Models
- Title(参考訳): RLingua:大規模言語モデルを用いたロボットマニピュレーションにおける強化学習サンプル効率の改善
- Authors: Liangliang Chen, Yutian Lei, Shiyu Jin, Ying Zhang, Liangjun Zhang
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。
RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
- 参考スコア(独自算出の注目度): 18.198931207983268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated its capability in solving
various tasks but is notorious for its low sample efficiency. In this paper, we
propose RLingua, a framework that can leverage the internal knowledge of large
language models (LLMs) to reduce the sample complexity of RL in robotic
manipulations. To this end, we first present how to extract the prior knowledge
of LLMs by prompt engineering so that a preliminary rule-based robot controller
for a specific task can be generated. Despite being imperfect, the
LLM-generated robot controller is utilized to produce action samples during
rollouts with a decaying probability, thereby improving RL's sample efficiency.
We employ the actor-critic framework and modify the actor loss to regularize
the policy learning towards the LLM-generated controller. RLingua also provides
a novel method of improving the imperfect LLM-generated robot controllers by
RL. We demonstrated that RLingua can significantly reduce the sample complexity
of TD3 in the robot tasks of panda_gym and achieve high success rates in
sparsely rewarded robot tasks in RLBench, where the standard TD3 fails.
Additionally, We validated RLingua's effectiveness in real-world robot
experiments through Sim2Real, demonstrating that the learned policies are
effectively transferable to real robot tasks. Further details and videos about
our work are available at our project website https://rlingua.github.io.
- Abstract(参考訳): 強化学習(rl)は様々なタスクを解決する能力を示しているが、サンプル効率が低いことで有名である。
本稿では,大規模言語モデル(LLM)の内部知識を活用し,ロボット操作におけるRLの複雑さを軽減するフレームワークであるRLinguaを提案する。
そこで、本研究では、まず、特定のタスクのための予備ルールベースロボットコントローラを作成できるように、プロンプトエンジニアリングによるllmの事前知識の抽出方法について述べる。
不完全にもかかわらず、LLM生成ロボットコントローラを使用して、ロールアウト中の動作サンプルを減衰確率で生成し、RLのサンプル効率を向上させる。
我々はアクター批判フレームワークを使用し、LCM生成コントローラに向けたポリシー学習を規則化するためにアクター損失を変更する。
RLinguaはまた、不完全なLLM生成ロボットコントローラをRLにより改善する新しい方法を提供する。
rlingua は panda_gym のロボットタスクにおける td3 のサンプルの複雑さを著しく減少させ、標準の td3 が失敗した rlbench のロボットタスクにおいて高い成功率を達成できることを実証した。
さらに,実世界のロボット実験におけるRLinguaの有効性をSim2Realを通じて検証し,学習方針が実ロボットに効果的に伝達可能であることを示した。
私たちの仕事に関する詳細とビデオは、私たちのプロジェクトwebサイトhttps://rlingua.github.io.comで閲覧できます。
関連論文リスト
- MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。