論文の概要: Improving Human Sequential Decision-Making with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.08454v4
- Date: Wed, 3 Jan 2024 02:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:30:04.634604
- Title: Improving Human Sequential Decision-Making with Reinforcement Learning
- Title(参考訳): 強化学習によるヒューマンシークエンシャル意思決定の改善
- Authors: Hamsa Bastani, Osbert Bastani, Wichinpong Park Sinchaisri
- Abstract要約: トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 32.969050978497066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Workers spend a significant amount of time learning how to make good
decisions. Evaluating the efficacy of a given decision, however, can be
complicated -- e.g., decision outcomes are often long-term and relate to the
original decision in complex ways. Surprisingly, even though learning good
decision-making strategies is difficult, they can often be expressed in simple
and concise forms. Focusing on sequential decision-making, we design a novel
machine learning algorithm that is capable of extracting "best practices" from
trace data and conveying its insights to humans in the form of interpretable
"tips". Our algorithm selects the tip that best bridges the gap between the
actions taken by human workers and those taken by the optimal policy in a way
that accounts for which actions are consequential for achieving higher
performance. We evaluate our approach through a series of randomized controlled
experiments where participants manage a virtual kitchen. Our experiments show
that the tips generated by our algorithm can significantly improve human
performance relative to intuitive baselines. In addition, we discuss a number
of empirical insights that can help inform the design of algorithms intended
for human-AI interfaces. For instance, we find evidence that participants do
not simply blindly follow our tips; instead, they combine them with their own
experience to discover additional strategies for improving performance.
- Abstract(参考訳): 労働者は良い決断をする方法を学ぶのにかなりの時間を費やします。
しかし、ある決定の有効性を評価することは複雑であり、例えば、決定結果はしばしば長期的であり、複雑な方法で元の決定と関係する。
驚くべきことに、良い意思決定戦略を学ぶことは難しいが、しばしば単純で簡潔な形で表現される。
逐次的意思決定に着目し,トレースデータから「ベストプラクティス」を抽出し,解釈可能な「チップ」という形でその洞察を人間に伝えることができる新しい機械学習アルゴリズムを設計した。
提案アルゴリズムは, 作業者による行動と最適方針による行動のギャップを, より高い性能を達成するためにどの行動が適切であるかを考慮し, 最善を尽くすためのヒントを選択する。
本手法は,参加者が仮想キッチンを管理するランダム化制御実験を通じて評価する。
実験の結果,本アルゴリズムが生み出すヒントは,直感的なベースラインと比較して,人間のパフォーマンスを著しく向上できることがわかった。
さらに,人間-AIインタフェースを意図したアルゴリズムの設計を支援するための実証的な知見をいくつか紹介する。
例えば、参加者は単にヒントに盲目的に従うのではなく、自分たちの経験と組み合わせて、パフォーマンスを改善するための追加の戦略を発見するのです。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Improving Human Decision-Making by Discovering Efficient Strategies for
Hierarchical Planning [0.6882042556551609]
計算資源が限られているため、効率的な計画戦略が必要です。
これらの戦略を計算する能力は、以前は非常に小さく、非常に単純な計画タスクに限られていました。
本稿では,この制限を克服できる認知型強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T19:46:00Z) - Consistent Estimators for Learning to Defer to an Expert [5.076419064097734]
我々は、意思決定を下流の専門家に延期するか、予測するか選択できる予測器の学習方法を示す。
様々な実験課題に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-06-02T18:21:38Z) - Automatic Discovery of Interpretable Planning Strategies [9.410583483182657]
我々は、慣用的ポリシーを単純かつ解釈可能な記述に変換する方法であるAI-Interpretを紹介する。
フローチャートとしてAI-Interpretが生み出す決定ルールを守れば、人々の計画戦略や意思決定は大幅に改善される。
論文 参考訳(メタデータ) (2020-05-24T12:24:52Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。