論文の概要: Tiered Reward: Designing Rewards for Specification and Fast Learning of Desired Behavior
- arxiv url: http://arxiv.org/abs/2212.03733v3
- Date: Thu, 1 Aug 2024 17:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 15:07:44.667895
- Title: Tiered Reward: Designing Rewards for Specification and Fast Learning of Desired Behavior
- Title(参考訳): Tiered Reward:Desired Behaviorの仕様と高速学習のためのRewardsの設計
- Authors: Zhiyuan Zhou, Shreyas Sundara Raman, Henry Sowerby, Michael L. Littman,
- Abstract要約: Tiered Rewardは環境に依存しない報酬関数のクラスである。
我々は、我々の嗜好関係に応じて最適な政策を誘導することが保証されていることを示す。
- 参考スコア(独自算出の注目度): 13.409265335314169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our job in the learning process is to design reward functions to express desired behavior and enable the agent to learn such behavior swiftly. However, designing good reward functions to induce the desired behavior is generally hard, let alone the question of which rewards make learning fast. In this work, we introduce a family of a reward structures we call Tiered Reward that addresses both of these questions. We consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space to resolve trade-offs in behavior preference. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we introduce Tiered Reward, a class of environment-independent reward functions and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we demonstrate that Tiered Reward leads to fast learning with multiple tabular and deep reinforcement-learning algorithms.
- Abstract(参考訳): 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。
人間として、学習プロセスにおける私たちの仕事は、望ましい行動を表現するために報酬関数を設計し、エージェントが素早くそのような行動を学習できるようにすることです。
しかし、望ましい振る舞いを誘発するために良い報酬関数を設計することは一般的に難しい。
本稿では,これら2つの疑問に対処する報奨構造であるTiered Rewardを紹介する。
我々は、望ましい状態に到達し、望ましくない状態を避けるために定式化されたタスクにおける報酬-設計問題を考える。
まず,行動嗜好のトレードオフを解決するために,政策空間の厳密な部分順序付けを提案する。
我々は、善良な状態に速く、高い確率で到達し、悪な状態を長く避ける政策を好む。
次に,環境に依存しない報酬関数のクラスであるTiered Rewardを紹介する。
最後に、Tiered Rewardが複数の表と深い強化学習アルゴリズムで高速な学習につながることを実証する。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Designing Rewards for Fast Learning [18.032654606016447]
報奨-デザインの選択が学習速度にどのように影響するかを考察し、ターゲットの振る舞いを素早く誘発する優れた報奨設計の原則を特定します。
本稿では,行動ギャップを最大化し,主観的割引を最小化する報酬関数を効率よく求める線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-30T19:48:52Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。