論文の概要: Designing Rewards for Fast Learning
- arxiv url: http://arxiv.org/abs/2205.15400v1
- Date: Mon, 30 May 2022 19:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:54:32.780221
- Title: Designing Rewards for Fast Learning
- Title(参考訳): 迅速な学習のための報酬設計
- Authors: Henry Sowerby, Zhiyuan Zhou, Michael L. Littman
- Abstract要約: 報奨-デザインの選択が学習速度にどのように影響するかを考察し、ターゲットの振る舞いを素早く誘発する優れた報奨設計の原則を特定します。
本稿では,行動ギャップを最大化し,主観的割引を最小化する報酬関数を効率よく求める線形プログラミングに基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.032654606016447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To convey desired behavior to a Reinforcement Learning (RL) agent, a designer
must choose a reward function for the environment, arguably the most important
knob designers have in interacting with RL agents. Although many reward
functions induce the same optimal behavior (Ng et al., 1999), in practice, some
of them result in faster learning than others. In this paper, we look at how
reward-design choices impact learning speed and seek to identify principles of
good reward design that quickly induce target behavior. This
reward-identification problem is framed as an optimization problem: Firstly, we
advocate choosing state-based rewards that maximize the action gap, making
optimal actions easy to distinguish from suboptimal ones. Secondly, we propose
minimizing a measure of the horizon, something we call the "subjective
discount", over which rewards need to be optimized to encourage agents to make
optimal decisions with less lookahead. To solve this optimization problem, we
propose a linear-programming based algorithm that efficiently finds a reward
function that maximizes action gap and minimizes subjective discount. We test
the rewards generated with the algorithm in tabular environments with
Q-Learning, and empirically show they lead to faster learning. Although we only
focus on Q-Learning because it is perhaps the simplest and most well understood
RL algorithm, preliminary results with R-max (Brafman and Tennenholtz, 2000)
suggest our results are much more general. Our experiments support three
principles of reward design: 1) consistent with existing results, penalizing
each step taken induces faster learning than rewarding the goal. 2) When
rewarding subgoals along the target trajectory, rewards should gradually
increase as the goal gets closer. 3) Dense reward that's nonzero on every state
is only good if designed carefully.
- Abstract(参考訳): 強化学習(RL)エージェントに望ましい振る舞いを伝えるには、デザイナーは環境に対する報酬関数を選択しなければならない。
多くの報酬関数は、同じ最適行動(ng et al., 1999)を誘導するが、それらの一部は、他のものよりも高速な学習をもたらす。
本稿では,報酬設計選択が学習速度にどのように影響するかを考察し,目標行動を迅速に誘導する良質な報酬設計の原理を探究する。
第一に、我々は行動ギャップを最大化する状態に基づく報酬の選択を提唱し、最適動作と最適動作の区別を容易にする。
第二に、我々は「主観的割引」と呼ばれる地平線の測度を最小化することを提案し、その上で報酬を最適化し、エージェントがより少ないルックアヘッドで最適な決定をするように促す必要がある。
そこで本研究では,行動ギャップを最大化し主観的割引を最小化する報酬関数を効率的に求める線形プログラミングに基づくアルゴリズムを提案する。
アルゴリズムが生成する報酬を表形式でq-learningでテストし,学習の高速化を実証的に示す。
Q-Learningはおそらく最も単純でよく理解されているRLアルゴリズムであるためのみ注目するが、R-max (Brafman and Tennenholtz, 2000) による予備的な結果から、より一般的な結果であることが示唆されている。
私たちの実験は 報酬デザインの3つの原則をサポートします
1)既存の結果と一致し,各ステップをペナライズすると,目標を達成するよりも学習が早い。
2)目標軌道に沿ってサブゴールを報奨すると,目標が近づくにつれて報酬が徐々に増加する。
3)すべての状態において0でない濃厚な報酬は,慎重に設計すればよい。
関連論文リスト
- To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。