論文の概要: Learning Personalized Decision Support Policies
- arxiv url: http://arxiv.org/abs/2304.06701v1
- Date: Thu, 13 Apr 2023 17:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:29:26.353989
- Title: Learning Personalized Decision Support Policies
- Title(参考訳): 個人化意思決定支援政策の学習
- Authors: Umang Bhatt, Valerie Chen, Katherine M. Collins, Parameswaran
Kamalaruban, Emma Kallina, Adrian Weller, Ameet Talwalkar
- Abstract要約: 重要な疑問は、どの形式のサポートが、低コストで正確な決定につながるかである。
提案する意思決定支援方針は,与えられた入力に対して,提供すべき支援形態を選択するものである。
我々は、事前情報を持たない意思決定者について検討し、多目的最適化問題として各政策の学習を形式化する。
- 参考スコア(独自算出の注目度): 39.39978450670295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual human decision-makers may benefit from different forms of support
to improve decision outcomes. However, a key question is which form of support
will lead to accurate decisions at a low cost. In this work, we propose
learning a decision support policy that, for a given input, chooses which form
of support, if any, to provide. We consider decision-makers for whom we have no
prior information and formalize learning their respective policies as a
multi-objective optimization problem that trades off accuracy and cost. Using
techniques from stochastic contextual bandits, we propose $\texttt{THREAD}$, an
online algorithm to personalize a decision support policy for each
decision-maker, and devise a hyper-parameter tuning strategy to identify a
cost-performance trade-off using simulated human behavior. We provide
computational experiments to demonstrate the benefits of $\texttt{THREAD}$
compared to offline baselines. We then introduce $\texttt{Modiste}$, an
interactive tool that provides $\texttt{THREAD}$ with an interface. We conduct
human subject experiments to show how $\texttt{Modiste}$ learns policies
personalized to each decision-maker and discuss the nuances of learning
decision support policies online for real users.
- Abstract(参考訳): 個人の意思決定者は、意思決定の成果を改善するために異なる形式の支援の恩恵を受けることができる。
しかしながら、重要な疑問は、どの形式のサポートが、低コストで正確な決定につながるかである。
本研究は,与えられた入力に対して,提供すべき支援形態を選択する決定支援政策の学習を提案する。
我々は、事前情報を持っていない意思決定者に対して、精度とコストをトレードオフする多目的最適化問題として、各政策の学習を形式化する。
確率的文脈的包帯からの手法を用いて、意思決定者ごとの決定支援ポリシーをパーソナライズするオンラインアルゴリズムである$\texttt{THREAD}$を提案し、シミュレーションされた人間の行動を用いてコストパフォーマンストレードオフを特定するためのハイパーパラメータチューニング戦略を考案する。
オフラインベースラインと比較して$\texttt{THREAD}$の利点を示すための計算実験を提供する。
次に、インタフェースで$\texttt{thread}$を提供するインタラクティブなツールである$\texttt{modiste}$を紹介します。
我々は、各意思決定者にパーソナライズされたポリシーを学習し、実際のユーザのためにオンラインで学習決定支援ポリシーのニュアンスについて議論する方法を示すために、人間の主題実験を行う。
関連論文リスト
- Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Social-Inverse: Inverse Decision-making of Social Contagion Management
with Task Migrations [6.457205049532316]
本稿では,社会感染管理における意思決定課題に対処するための一般的な枠組みを提案する。
我々は有望な実験結果を取得し、ある意思決定課題を他の課題に関連する解を用いて解決できることを初めて確認した。
論文 参考訳(メタデータ) (2022-09-21T16:50:57Z) - IMO$^3$: Interactive Multi-Objective Off-Policy Optimization [45.2918894257473]
システムデザイナは、望ましい運用ポイントに到達するために、目標をトレードオフするポリシーを見つける必要があります。
対話型多目的オフポリシー最適化(IMO$3$)を提案する。
IMO$3$は、確率の高い準最適ポリシーを識別する。
論文 参考訳(メタデータ) (2022-01-24T16:51:41Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z) - Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文 参考訳(メタデータ) (2020-05-08T14:31:31Z) - Interpretable Personalization via Policy Learning with Linear Decision
Boundaries [14.817218449140338]
商品・サービスの効果的なパーソナライズは、企業が収益を改善し競争力を維持するための中核事業となっている。
本稿では政策学習のレンズを通してパーソナライズ問題を考察する。
本稿では、線形決定境界を持つポリシーのクラスを提案し、因果推論のツールを用いた学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-17T05:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。