論文の概要: Specifying Behavior Preference with Tiered Reward Functions
- arxiv url: http://arxiv.org/abs/2212.03733v1
- Date: Wed, 7 Dec 2022 15:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:23:51.755252
- Title: Specifying Behavior Preference with Tiered Reward Functions
- Title(参考訳): Tiered Reward関数による行動選好の特定
- Authors: Zhiyuan Zhou, Henry Sowerby, Michael L. Littman
- Abstract要約: 我々は、望ましい状態に到達し、望ましくない状態を避けるために定式化されたタスクにおける報酬-設計問題を考える。
環境に依存しない階層型報酬構造を提案する。
我々は,複数の環境における報酬関数の結合を実証的に評価し,それらが望ましい振る舞いを誘発し,学習の速さをもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.032654606016447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement-learning agents seek to maximize a reward signal through
environmental interactions. As humans, our contribution to the learning process
is through designing the reward function. Like programmers, we have a behavior
in mind and have to translate it into a formal specification, namely rewards.
In this work, we consider the reward-design problem in tasks formulated as
reaching desirable states and avoiding undesirable states. To start, we propose
a strict partial ordering of the policy space. We prefer policies that reach
the good states faster and with higher probability while avoiding the bad
states longer. Next, we propose an environment-independent tiered reward
structure and show it is guaranteed to induce policies that are Pareto-optimal
according to our preference relation. Finally, we empirically evaluate tiered
reward functions on several environments and show they induce desired behavior
and lead to fast learning.
- Abstract(参考訳): 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。
人間として、学習プロセスへの私たちの貢献は、報酬関数を設計することにあります。
プログラマのように、私たちは振る舞いを念頭に置いて、それを正式な仕様、すなわち報酬に変換する必要があります。
本研究では,望ましい状態に到達し,望ましくない状態を避けるように定式化したタスクにおける報酬設計問題を考える。
まず,政策空間の厳格な部分順序付けを提案する。
我々は、悪い状態をより長く避けながら、より早く、より高い確率で良い状態に到達する政策を好む。
次に,環境に依存しない階層型報酬構造を提案し,好意関係に応じてパレート最適の政策を導出することが保証されていることを示す。
最後に,階層化報酬関数を複数の環境において実験的に評価し,望ましい行動を誘発し,高速な学習につながることを示す。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Designing Rewards for Fast Learning [18.032654606016447]
報奨-デザインの選択が学習速度にどのように影響するかを考察し、ターゲットの振る舞いを素早く誘発する優れた報奨設計の原則を特定します。
本稿では,行動ギャップを最大化し,主観的割引を最小化する報酬関数を効率よく求める線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-30T19:48:52Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。