論文の概要: A Study of Causal Confusion in Preference-Based Reward Learning
- arxiv url: http://arxiv.org/abs/2204.06601v1
- Date: Wed, 13 Apr 2022 18:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 06:40:11.860561
- Title: A Study of Causal Confusion in Preference-Based Reward Learning
- Title(参考訳): 選好型リワード学習における因果コンフュージョンの検討
- Authors: Jeremy Tien, Jerry Zhi-Yang He, Zackory Erickson, Anca D. Dragan,
Daniel Brown
- Abstract要約: 好みに基づく報酬学習によるロボットポリシーの学習は、ロボットの振る舞いをカスタマイズする手法として、ますます人気が高まっている。
近年、嗜好から報酬関数を学ぶことは、相関や報酬ゲームやハッキング行動に拍車をかける傾向があるという逸話が増えている。
本研究は,選好から報酬関数を学習する文脈における因果的混乱に関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 24.685460852553735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robot policies via preference-based reward learning is an
increasingly popular method for customizing robot behavior. However, in recent
years, there has been a growing body of anecdotal evidence that learning reward
functions from preferences is prone to spurious correlations and reward gaming
or hacking behaviors. While there is much anecdotal, empirical, and theoretical
analysis of causal confusion and reward gaming behaviors both in reinforcement
learning and imitation learning approaches that directly map from states to
actions, we provide the first systematic study of causal confusion in the
context of learning reward functions from preferences. To facilitate this
study, we identify a set of three preference learning benchmark domains where
we observe causal confusion when learning from offline datasets of pairwise
trajectory preferences: a simple reacher domain, an assistive feeding domain,
and an itch-scratching domain. To gain insight into this observed causal
confusion, we present a sensitivity analysis that explores the effect of
different factors--including the type of training data, reward model capacity,
and feature dimensionality--on the robustness of rewards learned from
preferences. We find evidence that learning rewards from pairwise trajectory
preferences is highly sensitive and non-robust to spurious features and
increasing model capacity, but not as sensitive to the type of training data.
Videos, code, and supplemental results are available at
https://sites.google.com/view/causal-reward-confusion.
- Abstract(参考訳): 選好に基づく報酬学習によるロボットポリシーの学習は、ロボットの振る舞いをカスタマイズする手段として人気が高まっている。
しかし、近年では、嗜好から報酬関数を学ぶことは、相関関係を刺激し、ゲームやハッキング行為を報奨する傾向があるという逸話が増えている。
強化学習と模倣学習の両方において、因果的混乱と報奨ゲーム行動の逸話的、経験的、理論的分析があり、状態から行動へ直接マッピングする手法があるが、選好から報酬関数を学習する文脈における因果的混乱に関する最初の体系的研究を提供する。
本研究を容易にするために,ペアワイズ軌道嗜好のオフラインデータセットから学習する際の因果混乱を観察する3つの選好学習ベンチマークドメインを同定した。
そこで本研究では,この因果的混乱に対する洞察を得るために,学習データの種類,報酬モデル能力,特徴次元など,さまざまな要因の影響を調査する感度分析を行った。
本研究は,2方向の選好から得られる学習報酬が,刺激的な特徴やモデル容量の増加に対して非常に敏感であり,非不快であることを示す。
ビデオ、コード、補足結果はhttps://sites.google.com/view/causal-reward-confusionで入手できる。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Deceptive Reinforcement Learning for Privacy-Preserving Planning [8.950168559003991]
強化学習は、探索行動から得られる報酬に基づいて行動ポリシーを見つける問題である。
強化学習の鍵となる要素は報酬関数であり、報酬(負または正の)が与えられるか、いつ与えられるかを決定する。
プライバシー保護強化学習の課題を解決するための2つのモデルを提案する。
論文 参考訳(メタデータ) (2021-02-05T06:50:04Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Effects of sparse rewards of different magnitudes in the speed of
learning of model-based actor critic methods [0.4640835690336653]
トレーニング中に外部環境圧力を適用することで,エージェントがより速く学習できることを示す。
Hindsight Experience Replay を用いた、よく知られた Mujoco 環境におけるDeep Deterministic Policy Gradients の有効性が示されている。
論文 参考訳(メタデータ) (2020-01-18T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。