論文の概要: Quantifying Differences in Reward Functions
- arxiv url: http://arxiv.org/abs/2006.13900v3
- Date: Wed, 17 Mar 2021 21:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:06:56.474483
- Title: Quantifying Differences in Reward Functions
- Title(参考訳): 報酬関数の違いの定量化
- Authors: Adam Gleave, Michael Dennis, Shane Legg, Stuart Russell, Jan Leike
- Abstract要約: 2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
- 参考スコア(独自算出の注目度): 24.66221171351157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many tasks, the reward function is inaccessible to introspection or too
complex to be specified procedurally, and must instead be learned from user
data. Prior work has evaluated learned reward functions by evaluating policies
optimized for the learned reward. However, this method cannot distinguish
between the learned reward function failing to reflect user preferences and the
policy optimization process failing to optimize the learned reward. Moreover,
this method can only tell us about behavior in the evaluation environment, but
the reward may incentivize very different behavior in even a slightly different
deployment environment. To address these problems, we introduce the
Equivalent-Policy Invariant Comparison (EPIC) distance to quantify the
difference between two reward functions directly, without a policy optimization
step. We prove EPIC is invariant on an equivalence class of reward functions
that always induce the same optimal policy. Furthermore, we find EPIC can be
efficiently approximated and is more robust than baselines to the choice of
coverage distribution. Finally, we show that EPIC distance bounds the regret of
optimal policies even under different transition dynamics, and we confirm
empirically that it predicts policy training success. Our source code is
available at https://github.com/HumanCompatibleAI/evaluating-rewards.
- Abstract(参考訳): 多くのタスクでは、報酬関数はイントロスペクションにアクセスできないか、手続き的に指定するには複雑すぎるため、代わりにユーザデータから学ぶ必要がある。
先行研究は、学習報酬に最適化されたポリシーを評価することによって、学習報酬機能を評価する。
しかし、この方法は、ユーザの好みを反映しない学習報酬関数と、学習報酬を最適化しない政策最適化プロセスとを区別できない。
さらに,本手法は評価環境における行動についてのみ教えてくれるが,その報奨は,わずかに異なる展開環境においても,非常に異なる行動のインセンティブを与える可能性がある。
これらの問題に対処するために,2つの報酬関数間の差を直接定量化するために,政策最適化ステップを使わずに等価-policy invariant comparison (epic) 距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
さらに,EPICを効率よく近似することができ,カバー分布の選択に対するベースラインよりも堅牢であることがわかった。
最後に、EPIC距離は、異なる遷移力学の下でも最適な政策の後悔と結びつき、政策訓練の成功を予測することを実証的に確認する。
ソースコードはhttps://github.com/humancompatibleai/evaluating-rewardsで入手できます。
関連論文リスト
- A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。