論文の概要: Eureka: Human-Level Reward Design via Coding Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12931v2
- Date: Tue, 30 Apr 2024 21:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:21:02.359074
- Title: Eureka: Human-Level Reward Design via Coding Large Language Models
- Title(参考訳): Eureka: 大規模言語モデルのコーディングによるヒューマンレベルリワード設計
- Authors: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
- 参考スコア(独自算出の注目度): 121.91007140014982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
しかし、粗いペン回転のような複雑な低レベルの操作タスクを学習するためにそれらを活用することは、未解決の問題である。
我々はこの基本的なギャップを埋め、LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提示する。
Eurekaは、GPT-4のような最先端のLCMの顕著なゼロショット生成、コード書き、コンテキスト改善機能を利用して、報酬コードよりも進化的な最適化を行う。
得られた報酬は、強化学習を通じて複雑なスキルを取得するために使用できる。
タスク固有のプロンプトや事前定義された報酬テンプレートがなければ、Eurekaは有能な人間工学的な報酬よりも優れた報酬関数を生成する。
10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家より優れており、平均52%の正規化された改善につながっている。
ユーレカの一般性はまた、人間のフィードバックからの強化学習(RLHF)のための新しい勾配なしのインコンテキスト学習アプローチを可能にし、人間の入力を容易に取り入れることで、モデル更新なしで生成された報酬の品質と安全性を向上させることができる。
最後に、カリキュラム学習環境におけるユーレカ報酬を用いて、ペン回転トリックを実行し、高速でペンを円状に巧みに操作できるシミュレートされたシャドウハンドを初めて実演する。
関連論文リスト
- PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning [4.173530949970536]
この研究はPCGRLLM(PCGRLLM)を導入し、フィードバック機構といくつかの推論に基づくプロンプトエンジニアリング技術を採用している。
2つの最先端LCMを用いた2次元環境におけるストーリー・ツー・リワード生成タスクにおける提案手法の評価を行った。
論文 参考訳(メタデータ) (2025-02-15T21:00:40Z) - ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics [1.4579344926652846]
本稿では,自然言語指導と視覚的ユーザデモを組み合わせることで,ロボットの動作とユーザ意図の整合性を向上する新しいフレームワークを提案する。
実験の結果, ELementalはタスク成功率42.3%で先行作業より優れ, アウト・オブ・ディストリビューションタスクにおいて41.3%の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-11-27T23:58:32Z) - Large Language Models are In-context Preference Learners [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。
我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。
強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文 参考訳(メタデータ) (2024-06-03T13:23:27Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。