論文の概要: Implications of Human Irrationality for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.04072v1
- Date: Sun, 7 Jun 2020 07:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:11:00.879416
- Title: Implications of Human Irrationality for Reinforcement Learning
- Title(参考訳): 強化学習における人間不合理性の意義
- Authors: Haiyang Chen, Hyung Jin Chang, Andrew Howes
- Abstract要約: 人間の意思決定は、機械学習の問題がどのように定義されているかを制限するためのアイデアのより良い源であるかもしれない、と私たちは主張する。
ある有望なアイデアは、選択コンテキストの明らかに無関係な側面に依存する人間の意思決定に関するものである。
本研究では,文脈選択タスクのための新しいPOMDPモデルを提案する。
- 参考スコア(独自算出の注目度): 26.76732313120685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in the behavioural sciences has begun to overturn the long-held
belief that human decision making is irrational, suboptimal and subject to
biases. This turn to the rational suggests that human decision making may be a
better source of ideas for constraining how machine learning problems are
defined than would otherwise be the case. One promising idea concerns human
decision making that is dependent on apparently irrelevant aspects of the
choice context. Previous work has shown that by taking into account choice
context and making relational observations, people can maximize expected value.
Other work has shown that Partially observable Markov decision processes
(POMDPs) are a useful way to formulate human-like decision problems. Here, we
propose a novel POMDP model for contextual choice tasks and show that, despite
the apparent irrationalities, a reinforcement learner can take advantage of the
way that humans make decisions. We suggest that human irrationalities may offer
a productive source of inspiration for improving the design of AI architectures
and machine learning methods.
- Abstract(参考訳): 行動科学における最近の研究は、人間の意思決定は不合理であり、最適であり、偏見の対象となるという長年の信念を覆し始めている。
これは、人間による意思決定が、機械学習の問題がどのように定義されているかを制限するための、より優れたアイデアの源である可能性を示唆している。
ある有望なアイデアは、選択コンテキストの明らかに無関係な側面に依存する人間の意思決定に関するものである。
以前の研究では、選択したコンテキストを考慮に入れ、リレーショナルな観察を行うことで、期待する価値を最大化できることが示されている。
他の研究は、部分的に観察可能なマルコフ決定プロセス(pomdps)が人間に似た決定問題を定式化する有用な方法であることを示している。
本稿では,文脈選択タスクのための新しいpomdpモデルを提案し,明らかな不合理性にもかかわらず,強化学習者が人間の意思決定方法を活用することができることを示す。
人間の不合理性は、AIアーキテクチャや機械学習手法の設計を改善するための、生産的なインスピレーション源となるかもしれない。
関連論文リスト
- Contrastive Explanations That Anticipate Human Misconceptions Can Improve Human Decision-Making Skills [24.04643864795939]
人々の意思決定能力は、意思決定支援にAIに頼ると、しばしば改善に失敗する。
ほとんどのAIシステムは、AIの決定を正当化する一方的な説明を提供するが、ユーザーの思考を考慮しない。
我々は、AIの選択と予測された、おそらく人間の選択との違いを説明する、人間中心のコントラスト的な説明を生成するためのフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-10-05T18:21:04Z) - Decision Theoretic Foundations for Experiments Evaluating Human Decisions [18.27590643693167]
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。
論文 参考訳(メタデータ) (2024-01-25T16:21:37Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Less Likely Brainstorming: Using Language Models to Generate Alternative
Hypotheses [45.720065723998225]
我々は、人間が関連性があると思われるが、起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「非インブレインストーミング」を導入する。
目標として仮説の可能性が低いトレーニングのベースラインアプローチは、人間がほぼ半分の確率または無関係であると評価するアウトプットを生成する。
そこで本研究では,新たなコントラスト学習手法を用いたテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:05:34Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Cognitive science as a source of forward and inverse models of human
decisions for robotics and control [13.502912109138249]
我々は、認知科学が人間の意思決定の前進モデルをどのように提供できるかを考察する。
我々はブラックボックスと理論駆動モデリングを合成するアプローチを強調した。
我々は,認知科学と制御研究の共通点にあるフレームワーク,方法論,行動可能な洞察の範囲を,読者に垣間見ることを目的としている。
論文 参考訳(メタデータ) (2021-09-01T00:28:28Z) - Learning the Preferences of Uncertain Humans with Inverse Decision
Theory [10.926992035470372]
我々は,不確実性の下で連続的でない二項決定を行う,人間を観察する枠組みである逆決定理論(IDT)の設定について検討する。
IDTでは、人間の好みは損失関数を通じて伝達され、異なるタイプの誤り間のトレードオフを表現する。
決定問題がより不確実な場合には、実際に好みを特定するのが簡単であることを示す。
論文 参考訳(メタデータ) (2021-06-19T00:11:13Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。