Fugu-MT 論文翻訳(概要): RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models

論文の概要: RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models

arxiv url: http://arxiv.org/abs/2403.06420v2
Date: Tue, 19 Mar 2024 17:52:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 20:59:04.996241
Title: RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models
Title（参考訳）: RLingua:大規模言語モデルを用いたロボットマニピュレーションにおける強化学習サンプル効率の改善
Authors: Liangliang Chen, Yutian Lei, Shiyu Jin, Ying Zhang, Liangjun Zhang,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。 RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
参考スコア（独自算出の注目度）: 16.963228633341792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has demonstrated its capability in solving various tasks but is notorious for its low sample efficiency. In this paper, we propose RLingua, a framework that can leverage the internal knowledge of large language models (LLMs) to reduce the sample complexity of RL in robotic manipulations. To this end, we first present a method for extracting the prior knowledge of LLMs by prompt engineering so that a preliminary rule-based robot controller for a specific task can be generated in a user-friendly manner. Despite being imperfect, the LLM-generated robot controller is utilized to produce action samples during rollouts with a decaying probability, thereby improving RL's sample efficiency. We employ TD3, the widely-used RL baseline method, and modify the actor loss to regularize the policy learning towards the LLM-generated controller. RLingua also provides a novel method of improving the imperfect LLM-generated robot controllers by RL. We demonstrate that RLingua can significantly reduce the sample complexity of TD3 in four robot tasks of panda_gym and achieve high success rates in 12 sampled sparsely rewarded robot tasks in RLBench, where the standard TD3 fails. Additionally, We validated RLingua's effectiveness in real-world robot experiments through Sim2Real, demonstrating that the learned policies are effectively transferable to real robot tasks. Further details about our work are available at our project website https://rlingua.github.io.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。本稿では,大規模言語モデル(LLM)の内部知識を活用し,ロボット操作におけるRLの複雑さを軽減するフレームワークであるRLinguaを提案する。この目的のために,まず,特定のタスクに対する予備ルールベースのロボットコントローラをユーザフレンドリな方法で生成できるように,エンジニアリングの迅速化によるLCMの事前知識抽出手法を提案する。不完全にもかかわらず、LLM生成ロボットコントローラを使用して、ロールアウト中の動作サンプルを減衰確率で生成し、RLのサンプル効率を向上させる。我々は、広く使われているRLベースライン手法であるTD3を使用し、LCM生成コントローラに対するポリシー学習を規則化するためにアクター損失を修正した。 RLinguaはまた、不完全なLLM生成ロボットコントローラをRLにより改善する新しい方法も提供する。 RLBenchでは,Panda_gymの4つのロボットタスクにおいて,TD3のサンプル複雑性を著しく低減し,標準のTD3が故障した12のロボットタスクにおいて高い成功率を達成できることが実証された。さらに,実世界のロボット実験におけるRLinguaの有効性をSim2Realを通じて検証し,学習方針が実ロボットのタスクに効果的に伝達可能であることを示した。私たちの作業の詳細は、プロジェクトのWebサイトhttps://rlingua.github.io.comで確認できます。

関連論文リスト

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
論文参考訳（メタデータ） (2025-03-06T10:08:44Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
論文参考訳（メタデータ） (2023-11-04T11:21:38Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。 SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文参考訳（メタデータ） (2022-10-27T05:30:43Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。