論文の概要: Interpretable Off-Policy Learning via Hyperbox Search
- arxiv url: http://arxiv.org/abs/2203.02473v1
- Date: Fri, 4 Mar 2022 18:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:38:25.563706
- Title: Interpretable Off-Policy Learning via Hyperbox Search
- Title(参考訳): Hyperbox Searchによる解釈型オフポリティ学習
- Authors: Daniel Tschernutter, Tobias Hatt, Stefan Feuerriegel
- Abstract要約: 本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
我々のポリシーは可解な正規形式(すなわち OR-of-ANDs)で表すことができ、したがって不可知である。
我々のアルゴリズムは、後悔の観点から、政治以外の学習を解釈することによる最先端の手法よりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 20.83151214072516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized treatment decisions have become an integral part of modern
medicine. Thereby, the aim is to make treatment decisions based on individual
patient characteristics. Numerous methods have been developed for learning such
policies from observational data that achieve the best outcome across a certain
policy class. Yet these methods are rarely interpretable. However,
interpretability is often a prerequisite for policy learning in clinical
practice. In this paper, we propose an algorithm for interpretable off-policy
learning via hyperbox search. In particular, our policies can be represented in
disjunctive normal form (i.e., OR-of-ANDs) and are thus intelligible. We prove
a universal approximation theorem that shows that our policy class is flexible
enough to approximate any measurable function arbitrarily well. For
optimization, we develop a tailored column generation procedure within a
branch-and-bound framework. Using a simulation study, we demonstrate that our
algorithm outperforms state-of-the-art methods from interpretable off-policy
learning in terms of regret. Using real-word clinical data, we perform a user
study with actual clinical experts, who rate our policies as highly
interpretable.
- Abstract(参考訳): パーソナライズされた治療決定は現代医学の不可欠な部分となっている。
これにより、個々の患者特性に基づいて治療決定を行うことが目的である。
特定の政策クラスで最高の結果を得るための観測データからこのような政策を学ぶための多くの方法が開発されている。
しかし、これらの方法はほとんど解釈できない。
しかし、解釈可能性はしばしば臨床における政策学習の前提条件である。
本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
特に、我々のポリシーは可分な正規形式(すなわち、OR-of-ANDs)で表され、したがって理解可能である。
我々は、ポリシークラスが任意の可測関数を任意に近似できるほど柔軟であることを示す普遍近似定理を証明する。
最適化のために,ブランチ・アンド・バウンド・フレームワーク内で列生成を行う。
シミュレーション研究により,本アルゴリズムは,後悔の観点から解釈可能なオフ・ポリシー学習から最先端の手法を上回ることを実証する。
実語臨床データを用いて実際の臨床専門家とユーザスタディを行い,政策を極めて解釈可能なものと評価した。
関連論文リスト
- An objective validation of polyp and instrument segmentation methods in
colonoscopy through Medico 2020 polyp segmentation and MedAI 2021
transparency challenges [58.402720481042365]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Scheduling with Predictions [0.0]
現代の学習技術により、医療画像の異常を数分で検出できるようになった。
機械による診断は、放射線技師による人間の画像のレビューを確実に置き換えることはできない。
本研究では,このシナリオを学習強化オンラインスケジューリング問題として定式化することによって研究する。
論文 参考訳(メタデータ) (2022-12-20T17:10:06Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文 参考訳(メタデータ) (2022-06-21T15:44:49Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:24:18Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。