論文の概要: Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics
- arxiv url: http://arxiv.org/abs/2309.06687v2
- Date: Mon, 2 Oct 2023 17:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 16:55:30.983091
- Title: Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics
- Title(参考訳): ロボットの深部強化学習のための自動逆関数デザイナとしての自己精製大言語モデル
- Authors: Jiayang Song, Zhehua Zhou, Jiawei Liu, Chunrong Fang, Zhan Shu, Lei Ma
- Abstract要約: 大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.773498542408264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Deep Reinforcement Learning (DRL) has achieved notable success in
numerous robotic applications, designing a high-performing reward function
remains a challenging task that often requires substantial manual input.
Recently, Large Language Models (LLMs) have been extensively adopted to address
tasks demanding in-depth common-sense knowledge, such as reasoning and
planning. Recognizing that reward function design is also inherently linked to
such knowledge, LLM offers a promising potential in this context. Motivated by
this, we propose in this work a novel LLM framework with a self-refinement
mechanism for automated reward function design. The framework commences with
the LLM formulating an initial reward function based on natural language
inputs. Then, the performance of the reward function is assessed, and the
results are presented back to the LLM for guiding its self-refinement process.
We examine the performance of our proposed framework through a variety of
continuous robotic control tasks across three diverse robotic systems. The
results indicate that our LLM-designed reward functions are able to rival or
even surpass manually designed reward functions, highlighting the efficacy and
applicability of our approach.
- Abstract(参考訳): 深層強化学習(drl)は多くのロボットアプリケーションで顕著な成功を収めているが、高いパフォーマンスの報酬関数の設計は、しばしばかなりの手動入力を必要とする課題である。
近年,大規模言語モデル(llm)が,推論や計画など,深い知識を必要とするタスクに広く採用されている。
報酬関数の設計もそのような知識と本質的に結びついていることを認識し、LLMはこの文脈において有望なポテンシャルを提供する。
そこで本研究では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
このフレームワークは、自然言語入力に基づいて初期報酬関数を定式化するllmで始まる。
そして、報奨関数の性能を評価し、その結果をLSMに提示して自己補充プロセスの導出を行う。
提案フレームワークの性能を,3つのロボットシステムにわたる連続ロボット制御タスクを通して検証した。
その結果, LLMが設計した報酬関数は, 手作業で設計した報酬関数と競合したり, 越えることが可能であることが示唆された。
関連論文リスト
- RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - CLIP-Motion: Learning Reward Functions for Robotic Actions Using
Consecutive Observations [1.03590082373586]
本稿では,CLIPモデルを用いたロボット動作に対する報酬関数の学習手法を提案する。
当社のアプローチでは,状態特徴と画像入力を効果的に処理するCLIPの機能を活用することで,この問題を回避することができる。
論文 参考訳(メタデータ) (2023-11-06T19:48:03Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。