論文の概要: Text2Reward: Automated Dense Reward Function Generation for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.11489v2
- Date: Thu, 21 Sep 2023 15:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 11:33:54.107426
- Title: Text2Reward: Automated Dense Reward Function Generation for
Reinforcement Learning
- Title(参考訳): Text2Reward:強化学習のためのDense Reward関数の自動生成
- Authors: Tianbao Xie and Siheng Zhao and Chen Henry Wu and Yitao Liu and Qian
Luo and Victor Zhong and Yanchao Yang and Tao Yu
- Abstract要約: Text2Rewardは、大きな言語モデルに基づく高密度報酬関数の生成を自動化する。
様々なタスクをカバーする解釈可能な、自由形式の高密度報酬コードを生成する。
Text2Rewardは、報酬関数を人間のフィードバックで洗練することでポリシーをさらに改善する。
- 参考スコア(独自算出の注目度): 28.12037583087337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing reward functions is a longstanding challenge in reinforcement
learning (RL); it requires specialized knowledge or domain data, leading to
high costs for development. To address this, we introduce Text2Reward, a
data-free framework that automates the generation of dense reward functions
based on large language models (LLMs). Given a goal described in natural
language, Text2Reward generates dense reward functions as an executable program
grounded in a compact representation of the environment. Unlike inverse RL and
recent work that uses LLMs to write sparse reward codes, Text2Reward produces
interpretable, free-form dense reward codes that cover a wide range of tasks,
utilize existing packages, and allow iterative refinement with human feedback.
We evaluate Text2Reward on two robotic manipulation benchmarks (ManiSkill2,
MetaWorld) and two locomotion environments of MuJoCo. On 13 of the 17
manipulation tasks, policies trained with generated reward codes achieve
similar or better task success rates and convergence speed than expert-written
reward codes. For locomotion tasks, our method learns six novel locomotion
behaviors with a success rate exceeding 94%. Furthermore, we show that the
policies trained in the simulator with our method can be deployed in the real
world. Finally, Text2Reward further improves the policies by refining their
reward functions with human feedback. Video results are available at
https://text-to-reward.github.io
- Abstract(参考訳): 報酬関数の設計は強化学習(RL)における長年にわたる課題であり、専門知識やドメインデータを必要とするため、開発に高いコストがかかる。
そこで本稿では,大規模言語モデル(LLM)に基づく高密度報酬関数の自動生成を行うデータフリーフレームワークであるText2Rewardを紹介する。
自然言語で記述されたゴールを前提として、Text2Rewardは環境のコンパクトな表現に基づく実行可能プログラムとして高密度の報酬関数を生成する。
逆 RL や LLM を使ってスパース報酬コードを記述する最近の作業とは異なり、Text2Reward は解釈可能で、多岐にわたるタスクをカバーし、既存のパッケージを活用し、人間のフィードバックで反復的な改善を可能にする。
ManiSkill2, MetaWorld) と MuJoCo の2つの移動環境において, Text2Reward の評価を行った。
17の操作タスクのうち13で、生成された報酬コードで訓練されたポリシーは、専門家が書いた報酬コードと同等かそれ以上のタスク成功率と収束速度を達成する。
移動課題では, 成功率94%を超える6つの新しい移動動作を学習する。
さらに,本手法を用いてシミュレータでトレーニングしたポリシーを実世界に展開可能であることを示す。
最後に、Text2Rewardは、報酬関数を人間のフィードバックで洗練することでポリシーをさらに改善する。
ビデオはhttps://text-to-reward.github.ioで入手できる。
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。
本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T18:41:15Z) - Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。
実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:58:12Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Learning to Shape Rewards using a Game of Switching Controls [21.456451774045465]
2つのエージェント間の新しいゲームでシェーピング報酬関数を構築する自動RSフレームワークを紹介します。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適した整形逆戻り関数を構築することを学ぶことを理論的に証明した。
我々は、Cartpoleの最先端のRSアルゴリズムと挑戦的なコンソールゲームGravitar、Solaris、Super Marioに対する私たちの方法の優れたパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-03-16T15:56:57Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。