論文の概要: Interpretable Off-Policy Learning via Hyperbox Search
- arxiv url: http://arxiv.org/abs/2203.02473v1
- Date: Fri, 4 Mar 2022 18:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:38:25.563706
- Title: Interpretable Off-Policy Learning via Hyperbox Search
- Title(参考訳): Hyperbox Searchによる解釈型オフポリティ学習
- Authors: Daniel Tschernutter, Tobias Hatt, Stefan Feuerriegel
- Abstract要約: 本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
我々のポリシーは可解な正規形式(すなわち OR-of-ANDs)で表すことができ、したがって不可知である。
我々のアルゴリズムは、後悔の観点から、政治以外の学習を解釈することによる最先端の手法よりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 20.83151214072516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized treatment decisions have become an integral part of modern
medicine. Thereby, the aim is to make treatment decisions based on individual
patient characteristics. Numerous methods have been developed for learning such
policies from observational data that achieve the best outcome across a certain
policy class. Yet these methods are rarely interpretable. However,
interpretability is often a prerequisite for policy learning in clinical
practice. In this paper, we propose an algorithm for interpretable off-policy
learning via hyperbox search. In particular, our policies can be represented in
disjunctive normal form (i.e., OR-of-ANDs) and are thus intelligible. We prove
a universal approximation theorem that shows that our policy class is flexible
enough to approximate any measurable function arbitrarily well. For
optimization, we develop a tailored column generation procedure within a
branch-and-bound framework. Using a simulation study, we demonstrate that our
algorithm outperforms state-of-the-art methods from interpretable off-policy
learning in terms of regret. Using real-word clinical data, we perform a user
study with actual clinical experts, who rate our policies as highly
interpretable.
- Abstract(参考訳): パーソナライズされた治療決定は現代医学の不可欠な部分となっている。
これにより、個々の患者特性に基づいて治療決定を行うことが目的である。
特定の政策クラスで最高の結果を得るための観測データからこのような政策を学ぶための多くの方法が開発されている。
しかし、これらの方法はほとんど解釈できない。
しかし、解釈可能性はしばしば臨床における政策学習の前提条件である。
本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
特に、我々のポリシーは可分な正規形式(すなわち、OR-of-ANDs)で表され、したがって理解可能である。
我々は、ポリシークラスが任意の可測関数を任意に近似できるほど柔軟であることを示す普遍近似定理を証明する。
最適化のために,ブランチ・アンド・バウンド・フレームワーク内で列生成を行う。
シミュレーション研究により,本アルゴリズムは,後悔の観点から解釈可能なオフ・ポリシー学習から最先端の手法を上回ることを実証する。
実語臨床データを用いて実際の臨床専門家とユーザスタディを行い,政策を極めて解釈可能なものと評価した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Scheduling with Predictions [0.0]
現代の学習技術により、医療画像の異常を数分で検出できるようになった。
機械による診断は、放射線技師による人間の画像のレビューを確実に置き換えることはできない。
本研究では,このシナリオを学習強化オンラインスケジューリング問題として定式化することによって研究する。
論文 参考訳(メタデータ) (2022-12-20T17:10:06Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:24:18Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。