論文の概要: Learning the Preferences of Uncertain Humans with Inverse Decision
Theory
- arxiv url: http://arxiv.org/abs/2106.10394v1
- Date: Sat, 19 Jun 2021 00:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 16:05:14.082934
- Title: Learning the Preferences of Uncertain Humans with Inverse Decision
Theory
- Title(参考訳): 逆決定理論を用いた不確実性人間の選好の学習
- Authors: Cassidy Laidlaw and Stuart Russell
- Abstract要約: 我々は,不確実性の下で連続的でない二項決定を行う,人間を観察する枠組みである逆決定理論(IDT)の設定について検討する。
IDTでは、人間の好みは損失関数を通じて伝達され、異なるタイプの誤り間のトレードオフを表現する。
決定問題がより不確実な場合には、実際に好みを特定するのが簡単であることを示す。
- 参考スコア(独自算出の注目度): 10.926992035470372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing observational approaches for learning human preferences, such as
inverse reinforcement learning, usually make strong assumptions about the
observability of the human's environment. However, in reality, people make many
important decisions under uncertainty. To better understand preference learning
in these cases, we study the setting of inverse decision theory (IDT), a
previously proposed framework where a human is observed making non-sequential
binary decisions under uncertainty. In IDT, the human's preferences are
conveyed through their loss function, which expresses a tradeoff between
different types of mistakes. We give the first statistical analysis of IDT,
providing conditions necessary to identify these preferences and characterizing
the sample complexity -- the number of decisions that must be observed to learn
the tradeoff the human is making to a desired precision. Interestingly, we show
that it is actually easier to identify preferences when the decision problem is
more uncertain. Furthermore, uncertain decision problems allow us to relax the
unrealistic assumption that the human is an optimal decision maker but still
identify their exact preferences; we give sample complexities in this
suboptimal case as well. Our analysis contradicts the intuition that partial
observability should make preference learning more difficult. It also provides
a first step towards understanding and improving preference learning methods
for uncertain and suboptimal humans.
- Abstract(参考訳): 逆強化学習のような人間の好みを学習するための既存の観察的アプローチは、通常、人間の環境の可観測性に関する強い仮定を作る。
しかし実際には、不確実性の下で多くの重要な決定を下す。
このような場合の嗜好学習をよりよく理解するために,不確実性の下で非逐次二元決定を行うという従来提案されていた枠組みである逆決定理論(IDT)の設定について検討する。
IDTでは、人間の好みは損失関数を通じて伝達され、異なるタイプの誤り間のトレードオフを表現する。
我々は、IDTの最初の統計分析を行い、これらの選好を識別し、サンプルの複雑さを特徴づけるために必要な条件を提供します。
興味深いことに、決定問題がより不確実な場合には、実際に好みを特定するのが簡単である。
さらに、不確実な決定問題は、人間は最適な意思決定者であるが、正確な選好を特定するという非現実的な仮定を緩和することができる。
我々の分析は、部分的可観測性によって選好学習がより困難になるという直観と矛盾する。
また、不確実で最適でない人間の嗜好学習方法を理解し改善する第一歩も提供する。
関連論文リスト
- Decision Theoretic Foundations for Experiments Evaluating Human
Decisions [20.5402873175161]
本稿では、統計的決定理論と情報経済学から合成された決定問題の広く適用可能な定義について述べる。
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが規範的決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
論文 参考訳(メタデータ) (2024-01-25T16:21:37Z) - Explainability's Gain is Optimality's Loss? -- How Explanations Bias
Decision-making [0.0]
説明は、アルゴリズムと人間の意思決定者とのコミュニケーションを促進するのに役立つ。
因果モデルに関する特徴に基づく説明のセマンティクスは、意思決定者の以前の信念から漏れを引き起こす。
このような違いは、準最適かつ偏った決定結果をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-06-17T11:43:42Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Uncertainty quantification and exploration-exploitation trade-off in
humans [0.0]
本稿では,不確実性下における人間の意思決定戦略が情報収集(探索)と報酬獲得(探索)のトレードオフをどのように管理するかを分析する理論的枠組みを概説する。
論文 参考訳(メタデータ) (2021-02-05T16:03:04Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z) - Implications of Human Irrationality for Reinforcement Learning [26.76732313120685]
人間の意思決定は、機械学習の問題がどのように定義されているかを制限するためのアイデアのより良い源であるかもしれない、と私たちは主張する。
ある有望なアイデアは、選択コンテキストの明らかに無関係な側面に依存する人間の意思決定に関するものである。
本研究では,文脈選択タスクのための新しいPOMDPモデルを提案する。
論文 参考訳(メタデータ) (2020-06-07T07:44:53Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。