論文の概要: Choice Set Misspecification in Reward Inference
- arxiv url: http://arxiv.org/abs/2101.07691v1
- Date: Tue, 19 Jan 2021 15:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:14:45.120074
- Title: Choice Set Misspecification in Reward Inference
- Title(参考訳): 報酬推論における選択集合の誤特定
- Authors: Rachel Freedman, Rohin Shah and Anca Dragan
- Abstract要約: 報酬関数を手動で指定する有望な代替手段は、ロボットが人間のフィードバックからそれを推測できるようにすることである。
本研究では,選択集合自体が特定し難いという考え方を紹介し,選択集合の誤仕様を解析する。
異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬に有意義な差をもたらすことを示した。
- 参考スコア(独自算出の注目度): 14.861109950708999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specifying reward functions for robots that operate in environments without a
natural reward signal can be challenging, and incorrectly specified rewards can
incentivise degenerate or dangerous behavior. A promising alternative to
manually specifying reward functions is to enable robots to infer them from
human feedback, like demonstrations or corrections. To interpret this feedback,
robots treat as approximately optimal a choice the person makes from a choice
set, like the set of possible trajectories they could have demonstrated or
possible corrections they could have made. In this work, we introduce the idea
that the choice set itself might be difficult to specify, and analyze choice
set misspecification: what happens as the robot makes incorrect assumptions
about the set of choices from which the human selects their feedback. We
propose a classification of different kinds of choice set misspecification, and
show that these different classes lead to meaningful differences in the
inferred reward and resulting performance. While we would normally expect
misspecification to hurt, we find that certain kinds of misspecification are
neither helpful nor harmful (in expectation). However, in other situations,
misspecification can be extremely harmful, leading the robot to believe the
opposite of what it should believe. We hope our results will allow for better
prediction and response to the effects of misspecification in real-world reward
inference.
- Abstract(参考訳): 自然な報酬信号のない環境で動作しているロボットに対する報酬関数の特定は困難であり、誤って特定された報酬は退行や危険な行動にインセンティブを与える可能性がある。
報酬関数を手動で指定する有望な代替手段は、デモや修正など、ロボットが人間のフィードバックから報酬を推測できるようにすることだ。
このフィードバックを解釈するために、ロボットは、人間が選択セットから選択する、例えば、実証できる軌道のセットや、修正できる可能性など、ほぼ最適なものとして扱う。
本研究では,選択セット自体の特定が困難であり,選択セットの誤特定を解析することを提案する。ロボットが,人間がフィードバックを選択する選択セットについて誤った仮定を行うとき,何が起こるか。
異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬と結果のパフォーマンスに有意義な違いをもたらすことを示した。
私たちは通常、誤特定が痛むことを期待するが、ある種の誤特定は役に立たず、有害ではない(期待では)。
しかし、他の状況では、不特定は極めて有害であり、ロボットが信じるべきものと逆のものを信じるようになる。
現実の報酬推論における不特定性の影響に対する予測と応答がより良くなることを期待します。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking [63.666119126351965]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Correcting Robot Plans with Natural Language Feedback [88.92824527743105]
ロボットの修正のための表現的かつ柔軟なツールとして自然言語を探索する。
これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。
本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) (2022-04-11T15:22:43Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Understanding Prediction Discrepancies in Machine Learning Classifiers [4.8793230799789535]
本論文では,同じデータ上で訓練されたベストパフォーマンスモデル群の予測誤差を解析する。
モデルに依存しないアルゴリズムであるDIGは、局所的に矛盾を捉えて説明するために提案される。
論文 参考訳(メタデータ) (2021-04-12T13:42:50Z) - Reward-rational (implicit) choice: A unifying formalism for reward
learning [35.57436895497646]
研究者は人間の行動やフィードバックから報酬関数を学習することを目指している。
近年、報酬関数の証拠として解釈される行動の種類は大幅に拡大している。
ロボットは、こうした多様な振る舞いをどう理解するのか?
論文 参考訳(メタデータ) (2020-02-12T08:07:49Z) - LESS is More: Rethinking Probabilistic Models of Human Behavior [36.020541093946925]
ボルツマンノイズレーショナル決定モデルは、人々は報酬関数を概ね最適化していると仮定する。
人間の軌道は連続した空間にあり、報酬関数に影響を及ぼす連続的な価値ある特徴を持つ。
報酬のみでなく、軌道間の距離を明示的に考慮するモデルを導入する。
論文 参考訳(メタデータ) (2020-01-13T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。