論文の概要: Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards
- arxiv url: http://arxiv.org/abs/2207.14722v1
- Date: Fri, 29 Jul 2022 14:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:18:57.526618
- Title: Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards
- Title(参考訳): 学習モチベーションに一貫性のある固有リワードによる自動リワード設計
- Authors: Yixiang Wang, Yujing Hu, Feng Wu, Yingfeng Chen
- Abstract要約: 報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 46.068337522093096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design is a critical part of the application of reinforcement
learning, the performance of which strongly depends on how well the reward
signal frames the goal of the designer and how well the signal assesses
progress in reaching that goal. In many cases, the extrinsic rewards provided
by the environment (e.g., win or loss of a game) are very sparse and make it
difficult to train agents directly. Researchers usually assist the learning of
agents by adding some auxiliary rewards in practice. However, designing
auxiliary rewards is often turned to a trial-and-error search for reward
settings that produces acceptable results. In this paper, we propose to
automatically generate goal-consistent intrinsic rewards for the agent to
learn, by maximizing which the expected accumulative extrinsic rewards can be
maximized. To this end, we introduce the concept of motivation which captures
the underlying goal of maximizing certain rewards and propose the motivation
based reward design method. The basic idea is to shape the intrinsic rewards by
minimizing the distance between the intrinsic and extrinsic motivations. We
conduct extensive experiments and show that our method performs better than the
state-of-the-art methods in handling problems of delayed reward, exploration,
and credit assignment.
- Abstract(参考訳): 報酬設計は強化学習の応用において重要な部分であり、その性能は、その報酬信号が設計者の目標を十分に満たしていることと、その目標達成の進捗を評価することに大きく依存している。
多くの場合、環境によって提供される外因的な報酬(例えば、ゲームの勝利や負け)は非常に疎外であり、エージェントを直接訓練することが困難である。
研究者は通常、補助的な報酬を追加することでエージェントの学習を支援する。
しかし、補助報酬の設計は、しばしば許容可能な結果をもたらす報酬設定の試行錯誤検索に向けられる。
本稿では,期待される累積的外因性報酬を最大化することにより,エージェントが学習する目標に一貫性のある内因性報酬を自動的に生成することを提案する。
そこで本研究では,一定の報酬を最大化する目標を捉えたモチベーションの概念を導入し,モチベーションに基づく報酬設計法を提案する。
基本的な考え方は、本質的な動機と外生的な動機の間の距離を最小化し、本質的な報酬を形成することである。
我々は広範な実験を行い, 遅延報酬, 探索, 信用割当といった問題に対処する上で, 最先端の手法よりも優れた性能を示す。
関連論文リスト
- Informativeness of Reward Functions in Reinforcement Learning [34.40155383189179]
本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。
現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。
本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
論文 参考訳(メタデータ) (2024-02-10T18:36:42Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Designing Rewards for Fast Learning [18.032654606016447]
報奨-デザインの選択が学習速度にどのように影響するかを考察し、ターゲットの振る舞いを素早く誘発する優れた報奨設計の原則を特定します。
本稿では,行動ギャップを最大化し,主観的割引を最小化する報酬関数を効率よく求める線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-30T19:48:52Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games [0.0]
報酬の少ないゲームで強化学習を使用するトレーニングエージェントは難しい問題である。
エージェントを訓練して,ゲームにおける真の目的を軽率な報酬で最終的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T03:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。