論文の概要: Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models
- arxiv url: http://arxiv.org/abs/2311.02379v1
- Date: Sat, 4 Nov 2023 11:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:56:18.551994
- Title: Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models
- Title(参考訳): 大規模言語モデルからのフィードバックによるロボット操作の強化学習
- Authors: Kun Chu, Xufeng Zhao, Cornelius Weber, Mengdi Li, Stefan Wermter
- Abstract要約: 本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
- 参考スコア(独自算出の注目度): 21.052532074815765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) plays an important role in the robotic
manipulation domain since it allows self-learning from trial-and-error
interactions with the environment. Still, sample efficiency and reward
specification seriously limit its potential. One possible solution involves
learning from expert guidance. However, obtaining a human expert is impractical
due to the high cost of supervising an RL agent, and developing an automatic
supervisor is a challenging endeavor. Large Language Models (LLMs) demonstrate
remarkable abilities to provide human-like feedback on user inputs in natural
language. Nevertheless, they are not designed to directly control low-level
robotic motions, as their pretraining is based on vast internet data rather
than specific robotics data. In this paper, we introduce the Lafite-RL
(Language agent feedback interactive Reinforcement Learning) framework, which
enables RL agents to learn robotic tasks efficiently by taking advantage of
LLMs' timely feedback. Our experiments conducted on RLBench tasks illustrate
that, with simple prompt design in natural language, the Lafite-RL agent
exhibits improved learning capabilities when guided by an LLM. It outperforms
the baseline in terms of both learning efficiency and success rate,
underscoring the efficacy of the rewards provided by an LLM.
- Abstract(参考訳): 強化学習(rl)は,環境との試行錯誤による自己学習を可能にするため,ロボット操作領域において重要な役割を果たす。
それでも、サンプル効率と報酬仕様は、その可能性を大幅に制限している。
ひとつの可能な解決策は、専門家の指導から学ぶことだ。
しかし、RLエージェントを監督するコストが高いため、人間専門家の獲得は不可能であり、自動スーパーバイザーの開発は困難な作業である。
大規模言語モデル(LLM)は、自然言語のユーザ入力に対して人間のようなフィードバックを提供する能力を示す。
それでも、訓練は特定のロボットデータではなく、巨大なインターネットデータに基づいているため、低レベルのロボットの動きを直接制御するように設計されていない。
本稿では,LLMのタイムリーなフィードバックを利用して,RLエージェントがロボットタスクを効率的に学習することを可能にするLafite-RL(Language Agent feedback Interactive Reinforcement Learning)フレームワークを提案する。
rlbenchタスクで行った実験は、自然言語による簡単なプロンプトデザインにより、llmに導かれると学習能力が向上することを示している。
これは、学習効率と成功率の両方においてベースラインを上回り、llmによって提供される報酬の有効性を強調する。
関連論文リスト
- RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic
Manipulations With Large Language Models [18.198931207983268]
強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。
RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T04:13:26Z) - Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Large Language Model as a Policy Teacher for Training Reinforcement
Learning Agents [17.430124346342826]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。