論文の概要: Improving Human Sequential Decision-Making with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.08454v4
- Date: Wed, 3 Jan 2024 02:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:30:04.634604
- Title: Improving Human Sequential Decision-Making with Reinforcement Learning
- Title(参考訳): 強化学習によるヒューマンシークエンシャル意思決定の改善
- Authors: Hamsa Bastani, Osbert Bastani, Wichinpong Park Sinchaisri
- Abstract要約: トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 32.969050978497066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Workers spend a significant amount of time learning how to make good
decisions. Evaluating the efficacy of a given decision, however, can be
complicated -- e.g., decision outcomes are often long-term and relate to the
original decision in complex ways. Surprisingly, even though learning good
decision-making strategies is difficult, they can often be expressed in simple
and concise forms. Focusing on sequential decision-making, we design a novel
machine learning algorithm that is capable of extracting "best practices" from
trace data and conveying its insights to humans in the form of interpretable
"tips". Our algorithm selects the tip that best bridges the gap between the
actions taken by human workers and those taken by the optimal policy in a way
that accounts for which actions are consequential for achieving higher
performance. We evaluate our approach through a series of randomized controlled
experiments where participants manage a virtual kitchen. Our experiments show
that the tips generated by our algorithm can significantly improve human
performance relative to intuitive baselines. In addition, we discuss a number
of empirical insights that can help inform the design of algorithms intended
for human-AI interfaces. For instance, we find evidence that participants do
not simply blindly follow our tips; instead, they combine them with their own
experience to discover additional strategies for improving performance.
- Abstract(参考訳): 労働者は良い決断をする方法を学ぶのにかなりの時間を費やします。
しかし、ある決定の有効性を評価することは複雑であり、例えば、決定結果はしばしば長期的であり、複雑な方法で元の決定と関係する。
驚くべきことに、良い意思決定戦略を学ぶことは難しいが、しばしば単純で簡潔な形で表現される。
逐次的意思決定に着目し,トレースデータから「ベストプラクティス」を抽出し,解釈可能な「チップ」という形でその洞察を人間に伝えることができる新しい機械学習アルゴリズムを設計した。
提案アルゴリズムは, 作業者による行動と最適方針による行動のギャップを, より高い性能を達成するためにどの行動が適切であるかを考慮し, 最善を尽くすためのヒントを選択する。
本手法は,参加者が仮想キッチンを管理するランダム化制御実験を通じて評価する。
実験の結果,本アルゴリズムが生み出すヒントは,直感的なベースラインと比較して,人間のパフォーマンスを著しく向上できることがわかった。
さらに,人間-AIインタフェースを意図したアルゴリズムの設計を支援するための実証的な知見をいくつか紹介する。
例えば、参加者は単にヒントに盲目的に従うのではなく、自分たちの経験と組み合わせて、パフォーマンスを改善するための追加の戦略を発見するのです。
関連論文リスト
- Designing Algorithmic Recommendations to Achieve Human-AI Complementarity [2.4247752614854203]
人間の意思決定を支援するレコメンデーションアルゴリズムの設計を形式化する。
我々は、潜在的なアウトカムフレームワークを使用して、ヒトの意思決定者による二元的治療選択に対するレコメンデーションの効果をモデル化する。
機械学習で実装可能な最小限の推奨アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-05-02T17:15:30Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Consistent Estimators for Learning to Defer to an Expert [5.076419064097734]
我々は、意思決定を下流の専門家に延期するか、予測するか選択できる予測器の学習方法を示す。
様々な実験課題に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-06-02T18:21:38Z) - Automatic Discovery of Interpretable Planning Strategies [9.410583483182657]
我々は、慣用的ポリシーを単純かつ解釈可能な記述に変換する方法であるAI-Interpretを紹介する。
フローチャートとしてAI-Interpretが生み出す決定ルールを守れば、人々の計画戦略や意思決定は大幅に改善される。
論文 参考訳(メタデータ) (2020-05-24T12:24:52Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。