論文の概要: Choice Set Misspecification in Reward Inference
- arxiv url: http://arxiv.org/abs/2101.07691v1
- Date: Tue, 19 Jan 2021 15:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:14:45.120074
- Title: Choice Set Misspecification in Reward Inference
- Title(参考訳): 報酬推論における選択集合の誤特定
- Authors: Rachel Freedman, Rohin Shah and Anca Dragan
- Abstract要約: 報酬関数を手動で指定する有望な代替手段は、ロボットが人間のフィードバックからそれを推測できるようにすることである。
本研究では,選択集合自体が特定し難いという考え方を紹介し,選択集合の誤仕様を解析する。
異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬に有意義な差をもたらすことを示した。
- 参考スコア(独自算出の注目度): 14.861109950708999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specifying reward functions for robots that operate in environments without a
natural reward signal can be challenging, and incorrectly specified rewards can
incentivise degenerate or dangerous behavior. A promising alternative to
manually specifying reward functions is to enable robots to infer them from
human feedback, like demonstrations or corrections. To interpret this feedback,
robots treat as approximately optimal a choice the person makes from a choice
set, like the set of possible trajectories they could have demonstrated or
possible corrections they could have made. In this work, we introduce the idea
that the choice set itself might be difficult to specify, and analyze choice
set misspecification: what happens as the robot makes incorrect assumptions
about the set of choices from which the human selects their feedback. We
propose a classification of different kinds of choice set misspecification, and
show that these different classes lead to meaningful differences in the
inferred reward and resulting performance. While we would normally expect
misspecification to hurt, we find that certain kinds of misspecification are
neither helpful nor harmful (in expectation). However, in other situations,
misspecification can be extremely harmful, leading the robot to believe the
opposite of what it should believe. We hope our results will allow for better
prediction and response to the effects of misspecification in real-world reward
inference.
- Abstract(参考訳): 自然な報酬信号のない環境で動作しているロボットに対する報酬関数の特定は困難であり、誤って特定された報酬は退行や危険な行動にインセンティブを与える可能性がある。
報酬関数を手動で指定する有望な代替手段は、デモや修正など、ロボットが人間のフィードバックから報酬を推測できるようにすることだ。
このフィードバックを解釈するために、ロボットは、人間が選択セットから選択する、例えば、実証できる軌道のセットや、修正できる可能性など、ほぼ最適なものとして扱う。
本研究では,選択セット自体の特定が困難であり,選択セットの誤特定を解析することを提案する。ロボットが,人間がフィードバックを選択する選択セットについて誤った仮定を行うとき,何が起こるか。
異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬と結果のパフォーマンスに有意義な違いをもたらすことを示した。
私たちは通常、誤特定が痛むことを期待するが、ある種の誤特定は役に立たず、有害ではない(期待では)。
しかし、他の状況では、不特定は極めて有害であり、ロボットが信じるべきものと逆のものを信じるようになる。
現実の報酬推論における不特定性の影響に対する予測と応答がより良くなることを期待します。
関連論文リスト
- Correcting Robot Plans with Natural Language Feedback [88.92824527743105]
ロボットの修正のための表現的かつ柔軟なツールとして自然言語を探索する。
これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。
本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) (2022-04-11T15:22:43Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Inferring Lexicographically-Ordered Rewards from Preferences [82.42854687952115]
本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
論文 参考訳(メタデータ) (2022-02-21T12:01:41Z) - Assisted Robust Reward Design [33.55440481096258]
実際には、報酬デザインは反復的なプロセスであり、デザイナーは報酬を選択し、最終的には報酬が間違った行動にインセンティブを与え、報酬を修正し、繰り返す「エッジケース」環境に遭遇する。
我々は,ロボットが与えられた報酬を受け取らず,むしろ不確実性を持ち,将来の設計の繰り返しを将来の証拠として考慮することを提案する。
本研究では,この手法を簡易な自律運転タスクでテストし,現在の報酬に対して「エッジケース」である環境を提案することにより,保留環境における自動車の挙動をより迅速に改善することを確認する。
論文 参考訳(メタデータ) (2021-11-18T18:59:33Z) - Incentivizing Compliance with Algorithmic Instruments [31.11365977878446]
本稿では,時間とともに変化する動的行動としてコンプライアンスを研究するゲーム理論モデルを提案する。
本研究では,エージェントの行動選択にのみ影響する機器変数(IV)の形式として,プランナーの推薦を反映する新しい推薦機構を開発する。
論文 参考訳(メタデータ) (2021-07-21T14:10:08Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Choice Set Confounding in Discrete Choice [29.25891648918572]
既存の学習方法は、選択セットの割り当てがデータにどう影響するかを見落とします。
我々は因果推論から個別選択設定にメソッドを適応させる。
ホテル予約における選択集合の整理は,合理的な有効性最大化とより一致していることを示す。
論文 参考訳(メタデータ) (2021-05-17T15:39:02Z) - Understanding Prediction Discrepancies in Machine Learning Classifiers [4.8793230799789535]
本論文では,同じデータ上で訓練されたベストパフォーマンスモデル群の予測誤差を解析する。
モデルに依存しないアルゴリズムであるDIGは、局所的に矛盾を捉えて説明するために提案される。
論文 参考訳(メタデータ) (2021-04-12T13:42:50Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。