論文の概要: Inverse Contextual Bandits: Learning How Behavior Evolves over Time
- arxiv url: http://arxiv.org/abs/2107.06317v1
- Date: Tue, 13 Jul 2021 18:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 05:05:28.224061
- Title: Inverse Contextual Bandits: Learning How Behavior Evolves over Time
- Title(参考訳): 逆文脈帯域:時間とともに行動がどのように変化するかを学ぶ
- Authors: Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar
- Abstract要約: 意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 89.59391124399927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding an agent's priorities by observing their behavior is critical
for transparency and accountability in decision processes, such as in
healthcare. While conventional approaches to policy learning almost invariably
assume stationarity in behavior, this is hardly true in practice: Medical
practice is constantly evolving, and clinical professionals are constantly
fine-tuning their priorities. We desire an approach to policy learning that
provides (1) interpretable representations of decision-making, accounts for (2)
non-stationarity in behavior, as well as operating in an (3) offline manner.
First, we model the behavior of learning agents in terms of contextual bandits,
and formalize the problem of inverse contextual bandits (ICB). Second, we
propose two algorithms to tackle ICB, each making varying degrees of
assumptions regarding the agent's learning strategy. Finally, through both real
and simulated data for liver transplantations, we illustrate the applicability
and explainability of our method, as well as validating its accuracy.
- Abstract(参考訳): 行動を観察してエージェントの優先順位を理解することは、医療などの意思決定プロセスにおいて透明性と説明責任に不可欠である。
政策学習の従来のアプローチは、行動の定常性をほぼ常に想定するが、実際にはそうではない。医療プラクティスは絶えず進化しており、臨床専門家は優先順位を常に微調整している。
我々は(1)意思決定の解釈可能な表現、(2)行動の非定常性の説明、(3)オフラインの操作を提供する政策学習へのアプローチを望んでいる。
まず,学習エージェントの動作を文脈的バンディットの観点からモデル化し,逆文脈的バンディット問題(icb)を定式化する。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
最後に,肝移植における実データと模擬データを用いて,本手法の適用性と説明可能性,精度の検証を行った。
関連論文リスト
- Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Interpretable Off-Policy Learning via Hyperbox Search [20.83151214072516]
本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
我々のポリシーは可解な正規形式(すなわち OR-of-ANDs)で表すことができ、したがって不可知である。
我々のアルゴリズムは、後悔の観点から、政治以外の学習を解釈することによる最先端の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2022-03-04T18:10:24Z) - Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization [0.0]
目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。
今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
論文 参考訳(メタデータ) (2022-01-21T08:18:38Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。