Fugu-MT 論文翻訳(概要): Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models

論文の概要: Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models

arxiv url: http://arxiv.org/abs/2311.02379v1
Date: Sat, 4 Nov 2023 11:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 17:56:18.551994
Title: Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models
Title（参考訳）: 大規模言語モデルからのフィードバックによるロボット操作の強化学習
Authors: Kun Chu, Xufeng Zhao, Cornelius Weber, Mengdi Li, Stefan Wermter
Abstract要約: 本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
参考スコア（独自算出の注目度）: 21.052532074815765
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) plays an important role in the robotic manipulation domain since it allows self-learning from trial-and-error interactions with the environment. Still, sample efficiency and reward specification seriously limit its potential. One possible solution involves learning from expert guidance. However, obtaining a human expert is impractical due to the high cost of supervising an RL agent, and developing an automatic supervisor is a challenging endeavor. Large Language Models (LLMs) demonstrate remarkable abilities to provide human-like feedback on user inputs in natural language. Nevertheless, they are not designed to directly control low-level robotic motions, as their pretraining is based on vast internet data rather than specific robotics data. In this paper, we introduce the Lafite-RL (Language agent feedback interactive Reinforcement Learning) framework, which enables RL agents to learn robotic tasks efficiently by taking advantage of LLMs' timely feedback. Our experiments conducted on RLBench tasks illustrate that, with simple prompt design in natural language, the Lafite-RL agent exhibits improved learning capabilities when guided by an LLM. It outperforms the baseline in terms of both learning efficiency and success rate, underscoring the efficacy of the rewards provided by an LLM.
Abstract（参考訳）: 強化学習(rl)は,環境との試行錯誤による自己学習を可能にするため,ロボット操作領域において重要な役割を果たす。それでも、サンプル効率と報酬仕様は、その可能性を大幅に制限している。ひとつの可能な解決策は、専門家の指導から学ぶことだ。しかし、RLエージェントを監督するコストが高いため、人間専門家の獲得は不可能であり、自動スーパーバイザーの開発は困難な作業である。大規模言語モデル(LLM)は、自然言語のユーザ入力に対して人間のようなフィードバックを提供する能力を示す。それでも、訓練は特定のロボットデータではなく、巨大なインターネットデータに基づいているため、低レベルのロボットの動きを直接制御するように設計されていない。本稿では,LLMのタイムリーなフィードバックを利用して,RLエージェントがロボットタスクを効率的に学習することを可能にするLafite-RL(Language Agent feedback Interactive Reinforcement Learning)フレームワークを提案する。 rlbenchタスクで行った実験は、自然言語による簡単なプロンプトデザインにより、llmに導かれると学習能力が向上することを示している。これは、学習効率と成功率の両方においてベースラインを上回り、llmによって提供される報酬の有効性を強調する。

関連論文リスト

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
論文参考訳（メタデータ） (2025-03-06T10:08:44Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文参考訳（メタデータ） (2024-06-25T17:50:03Z)
LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。本稿では,LLMのための自律学習手法を提案する。本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文参考訳（メタデータ） (2024-06-02T03:36:37Z)
RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models [16.963228633341792]
強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。 RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
論文参考訳（メタデータ） (2024-03-11T04:13:26Z)
Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文参考訳（メタデータ） (2024-02-24T13:13:04Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。