論文の概要: Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning
- arxiv url: http://arxiv.org/abs/2204.06601v4
- Date: Sat, 18 Mar 2023 20:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:45:56.087336
- Title: Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning
- Title(参考訳): 選好的報酬学習における因果的混乱と報酬誤認
- Authors: Jeremy Tien, Jerry Zhi-Yang He, Zackory Erickson, Anca D. Dragan,
Daniel S. Brown
- Abstract要約: 選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
- 参考スコア(独自算出の注目度): 33.944367978407904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning policies via preference-based reward learning is an increasingly
popular method for customizing agent behavior, but has been shown anecdotally
to be prone to spurious correlations and reward hacking behaviors. While much
prior work focuses on causal confusion in reinforcement learning and behavioral
cloning, we focus on a systematic study of causal confusion and reward
misidentification when learning from preferences. In particular, we perform a
series of sensitivity and ablation analyses on several benchmark domains where
rewards learned from preferences achieve minimal test error but fail to
generalize to out-of-distribution states -- resulting in poor policy
performance when optimized. We find that the presence of non-causal distractor
features, noise in the stated preferences, and partial state observability can
all exacerbate reward misidentification. We also identify a set of methods with
which to interpret misidentified learned rewards. In general, we observe that
optimizing misidentified rewards drives the policy off the reward's training
distribution, resulting in high predicted (learned) rewards but low true
rewards. These findings illuminate the susceptibility of preference learning to
reward misidentification and causal confusion -- failure to consider even one
of many factors can result in unexpected, undesirable behavior.
- Abstract(参考訳): 選好に基づく報酬学習による学習ポリシは,エージェントの行動をカスタマイズする手段として人気が高まっている。
先行研究は強化学習と行動クローニングにおける因果的混乱に焦点をあてる一方で、選好から学ぶ際に因果的混乱と報酬的誤認の体系的研究に焦点をあてる。
特に,いくつかのベンチマーク領域において,好みから学習した報酬が最小限のテストエラーを達成するが,分散状態外への一般化に失敗し,最適化されたポリシー性能が低下する,一連の感度とアブレーション分析を行う。
注意をそらさない特徴,指定した嗜好のノイズ,部分的状態観察性の存在は,報酬の誤認を悪化させる可能性がある。
また、誤同定された学習報酬を解釈する一連の方法も同定する。
一般に、誤った報酬を最適化することは、報酬のトレーニング配布を阻害し、高い予測(学習)報酬をもたらすが、真の報酬は低い。
これらの知見は、誤識別と因果的混乱に報いる選好学習の感受性を照らすもので、多くの要因の1つを考慮できないことは、予期せぬ、望ましくない行動を引き起こす可能性がある。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Deceptive Reinforcement Learning for Privacy-Preserving Planning [8.950168559003991]
強化学習は、探索行動から得られる報酬に基づいて行動ポリシーを見つける問題である。
強化学習の鍵となる要素は報酬関数であり、報酬(負または正の)が与えられるか、いつ与えられるかを決定する。
プライバシー保護強化学習の課題を解決するための2つのモデルを提案する。
論文 参考訳(メタデータ) (2021-02-05T06:50:04Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Effects of sparse rewards of different magnitudes in the speed of
learning of model-based actor critic methods [0.4640835690336653]
トレーニング中に外部環境圧力を適用することで,エージェントがより速く学習できることを示す。
Hindsight Experience Replay を用いた、よく知られた Mujoco 環境におけるDeep Deterministic Policy Gradients の有効性が示されている。
論文 参考訳(メタデータ) (2020-01-18T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。