論文の概要: Eureka: Human-Level Reward Design via Coding Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12931v1
- Date: Thu, 19 Oct 2023 17:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:53:04.221680
- Title: Eureka: Human-Level Reward Design via Coding Large Language Models
- Title(参考訳): Eureka: 大規模言語モデルのコーディングによるヒューマンレベルリワード設計
- Authors: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert
Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
- 参考スコア(独自算出の注目度): 125.96640754611374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れている。
しかし、粗いペン回転のような複雑な低レベルの操作タスクを学習するためにそれらを活用することは、未解決の問題である。
このギャップを橋渡しし,llmsを用いた人間レベルの報酬設計アルゴリズムであるeurekaを提案する。
Eurekaは、GPT-4のような最先端のLCMの顕著なゼロショット生成、コード書き、コンテキスト改善機能を利用して、報酬コードよりも進化的な最適化を行う。
得られた報酬は強化学習によって複雑なスキルを獲得するのに使うことができる。
タスク固有のプロンプトや事前定義された報酬テンプレートがなければ、Eurekaは有能な人間工学的な報酬よりも優れた報酬関数を生成する。
10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家より優れており、平均52%の正規化された改善につながっている。
ユーレカの一般性はまた、人間のフィードバックからの強化学習(RLHF)のための新しい勾配なしのインコンテキスト学習アプローチを可能にし、人間の入力を容易に取り入れることで、モデル更新なしで生成された報酬の品質と安全性を向上させることができる。
最後に、カリキュラム学習環境におけるユーレカ報酬を用いて、ペン回転トリックを実行し、高速でペンを円状に巧みに操作できるシミュレートされたシャドウハンドを初めて実演する。
関連論文リスト
- Skill Set Optimization: Reinforcing Language Model Behavior via
Transferable Skills [43.25742764679117]
大規模言語モデル(LLM)は、インタラクティブ環境でのシーケンシャルな意思決定に最近使用されている。
トランスファー可能なスキルセットの構築と精細化を通じて,LLMアクターのパフォーマンスを向上させるためのスキルセット最適化(SSO)を提案する。
我々は,従来のビデオゲームNetHackとテキスト環境ScienceWorldで,SSOのスキルセットを最適化し,コンテキスト内ポリシーの改善を行う能力を実証するために,本手法を評価した。
論文 参考訳(メタデータ) (2024-02-05T17:59:00Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape [14.758096079392674]
本研究では,大規模言語モデル(LLM),特に GPT-4 と細調整 GPT-3.5 が,自動エッセイ評価システムにおける有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した総合的な実験は、LLMベースのAESシステムの顕著な利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。