論文の概要: Eureka: Human-Level Reward Design via Coding Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12931v2
- Date: Tue, 30 Apr 2024 21:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-02 20:21:02.359074
- Title: Eureka: Human-Level Reward Design via Coding Large Language Models
- Title(参考訳): Eureka: 大規模言語モデルのコーディングによるヒューマンレベルリワード設計
- Authors: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
- 参考スコア(独自算出の注目度): 121.91007140014982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
しかし、粗いペン回転のような複雑な低レベルの操作タスクを学習するためにそれらを活用することは、未解決の問題である。
我々はこの基本的なギャップを埋め、LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提示する。
Eurekaは、GPT-4のような最先端のLCMの顕著なゼロショット生成、コード書き、コンテキスト改善機能を利用して、報酬コードよりも進化的な最適化を行う。
得られた報酬は、強化学習を通じて複雑なスキルを取得するために使用できる。
タスク固有のプロンプトや事前定義された報酬テンプレートがなければ、Eurekaは有能な人間工学的な報酬よりも優れた報酬関数を生成する。
10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家より優れており、平均52%の正規化された改善につながっている。
ユーレカの一般性はまた、人間のフィードバックからの強化学習(RLHF)のための新しい勾配なしのインコンテキスト学習アプローチを可能にし、人間の入力を容易に取り入れることで、モデル更新なしで生成された報酬の品質と安全性を向上させることができる。
最後に、カリキュラム学習環境におけるユーレカ報酬を用いて、ペン回転トリックを実行し、高速でペンを円状に巧みに操作できるシミュレートされたシャドウハンドを初めて実演する。
関連論文リスト
- Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。
AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。
我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文 参考訳(メタデータ) (2025-03-26T04:05:50Z) - Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。
本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
論文 参考訳(メタデータ) (2025-03-06T10:08:44Z) - PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning [4.173530949970536]
この研究はPCGRLLM(PCGRLLM)を導入し、フィードバック機構といくつかの推論に基づくプロンプトエンジニアリング技術を採用している。
2つの最先端LCMを用いた2次元環境におけるストーリー・ツー・リワード生成タスクにおける提案手法の評価を行った。
論文 参考訳(メタデータ) (2025-02-15T21:00:40Z) - Few-shot In-Context Preference Learning Using Large Language Models [15.84585737510038]
報酬関数の設計は強化学習の中核的な要素である。
報酬を学ぶことは、しばしばタトゥーラ・ラサを学ぶため、非常に非効率である。
In-Context Preference Learning (ICPL) を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。
強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文 参考訳(メタデータ) (2024-06-03T13:23:27Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。