論文の概要: Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics
- arxiv url: http://arxiv.org/abs/2309.06687v2
- Date: Mon, 2 Oct 2023 17:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 16:55:30.983091
- Title: Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics
- Title(参考訳): ロボットの深部強化学習のための自動逆関数デザイナとしての自己精製大言語モデル
- Authors: Jiayang Song, Zhehua Zhou, Jiawei Liu, Chunrong Fang, Zhan Shu, Lei Ma
- Abstract要約: 大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.773498542408264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Deep Reinforcement Learning (DRL) has achieved notable success in
numerous robotic applications, designing a high-performing reward function
remains a challenging task that often requires substantial manual input.
Recently, Large Language Models (LLMs) have been extensively adopted to address
tasks demanding in-depth common-sense knowledge, such as reasoning and
planning. Recognizing that reward function design is also inherently linked to
such knowledge, LLM offers a promising potential in this context. Motivated by
this, we propose in this work a novel LLM framework with a self-refinement
mechanism for automated reward function design. The framework commences with
the LLM formulating an initial reward function based on natural language
inputs. Then, the performance of the reward function is assessed, and the
results are presented back to the LLM for guiding its self-refinement process.
We examine the performance of our proposed framework through a variety of
continuous robotic control tasks across three diverse robotic systems. The
results indicate that our LLM-designed reward functions are able to rival or
even surpass manually designed reward functions, highlighting the efficacy and
applicability of our approach.
- Abstract(参考訳): 深層強化学習(drl)は多くのロボットアプリケーションで顕著な成功を収めているが、高いパフォーマンスの報酬関数の設計は、しばしばかなりの手動入力を必要とする課題である。
近年,大規模言語モデル(llm)が,推論や計画など,深い知識を必要とするタスクに広く採用されている。
報酬関数の設計もそのような知識と本質的に結びついていることを認識し、LLMはこの文脈において有望なポテンシャルを提供する。
そこで本研究では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
このフレームワークは、自然言語入力に基づいて初期報酬関数を定式化するllmで始まる。
そして、報奨関数の性能を評価し、その結果をLSMに提示して自己補充プロセスの導出を行う。
提案フレームワークの性能を,3つのロボットシステムにわたる連続ロボット制御タスクを通して検証した。
その結果, LLMが設計した報酬関数は, 手作業で設計した報酬関数と競合したり, 越えることが可能であることが示唆された。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - CLIP-Motion: Learning Reward Functions for Robotic Actions Using
Consecutive Observations [1.03590082373586]
本稿では,CLIPモデルを用いたロボット動作に対する報酬関数の学習手法を提案する。
当社のアプローチでは,状態特徴と画像入力を効果的に処理するCLIPの機能を活用することで,この問題を回避することができる。
論文 参考訳(メタデータ) (2023-11-06T19:48:03Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。