Fugu-MT 論文翻訳(概要): Interpretable Off-Policy Learning via Hyperbox Search

論文の概要: Interpretable Off-Policy Learning via Hyperbox Search

arxiv url: http://arxiv.org/abs/2203.02473v1
Date: Fri, 4 Mar 2022 18:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-07 14:38:25.563706
Title: Interpretable Off-Policy Learning via Hyperbox Search
Title（参考訳）: Hyperbox Searchによる解釈型オフポリティ学習
Authors: Daniel Tschernutter, Tobias Hatt, Stefan Feuerriegel
Abstract要約: 本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。我々のポリシーは可解な正規形式(すなわち OR-of-ANDs)で表すことができ、したがって不可知である。我々のアルゴリズムは、後悔の観点から、政治以外の学習を解釈することによる最先端の手法よりも優れていることを実証する。
参考スコア（独自算出の注目度）: 20.83151214072516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personalized treatment decisions have become an integral part of modern medicine. Thereby, the aim is to make treatment decisions based on individual patient characteristics. Numerous methods have been developed for learning such policies from observational data that achieve the best outcome across a certain policy class. Yet these methods are rarely interpretable. However, interpretability is often a prerequisite for policy learning in clinical practice. In this paper, we propose an algorithm for interpretable off-policy learning via hyperbox search. In particular, our policies can be represented in disjunctive normal form (i.e., OR-of-ANDs) and are thus intelligible. We prove a universal approximation theorem that shows that our policy class is flexible enough to approximate any measurable function arbitrarily well. For optimization, we develop a tailored column generation procedure within a branch-and-bound framework. Using a simulation study, we demonstrate that our algorithm outperforms state-of-the-art methods from interpretable off-policy learning in terms of regret. Using real-word clinical data, we perform a user study with actual clinical experts, who rate our policies as highly interpretable.
Abstract（参考訳）: パーソナライズされた治療決定は現代医学の不可欠な部分となっている。これにより、個々の患者特性に基づいて治療決定を行うことが目的である。特定の政策クラスで最高の結果を得るための観測データからこのような政策を学ぶための多くの方法が開発されている。しかし、これらの方法はほとんど解釈できない。しかし、解釈可能性はしばしば臨床における政策学習の前提条件である。本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。特に、我々のポリシーは可分な正規形式(すなわち、OR-of-ANDs)で表され、したがって理解可能である。我々は、ポリシークラスが任意の可測関数を任意に近似できるほど柔軟であることを示す普遍近似定理を証明する。最適化のために,ブランチ・アンド・バウンド・フレームワーク内で列生成を行う。シミュレーション研究により,本アルゴリズムは,後悔の観点から解釈可能なオフ・ポリシー学習から最先端の手法を上回ることを実証する。実語臨床データを用いて実際の臨床専門家とユーザスタディを行い,政策を極めて解釈可能なものと評価した。

関連論文リスト

Pragmatic Policy Development via Interpretable Behavior Cloning [6.177449809243359]
本稿では,患者の行動方針の解釈可能なモデルを用いて,各患者の状態において最も頻繁に選択される行動から治療方針を導出する。このフレームワークによって導かれるポリシーは,オフラインのRLで得られるものに対して,解釈可能な代替手段を提供することで,現在の実践を上回り得ることを実証する。
論文参考訳（メタデータ） (2025-07-22T22:34:35Z)
Evaluating Interpretable Reinforcement Learning by Distilling Policies into Programs [8.851129384632994]
我々は、人間がいない政策の解釈可能性を実証的に評価する問題に取り組む。このような明確な定義の欠如にもかかわらず、研究者は「シミュラビリティ」の概念に同意している。この新しい手法は、我々が政策解釈可能性の大規模な実証的な評価を行うために使用するシミュラビリティのプロキシに依存している。
論文参考訳（メタデータ） (2025-03-11T11:34:06Z)
Deep Causal Behavioral Policy Learning: Applications to Healthcare [0.0]
多様な非ランダム化医療環境におけるダイナミックな臨床行動体制を研究するための深層学習に基づくアプローチを提案する。提案手法は,ディープラーニングアルゴリズムを用いて,高次元臨床行動経路の分布を学習する。 LCBMを用いて学習した行動政策の新たな解釈として,患者の治療に使用される複雑で暗黙的な知識を効率的に符号化する手法を提案する。
論文参考訳（メタデータ） (2025-03-05T18:24:58Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文参考訳（メタデータ） (2023-07-30T16:08:45Z)
Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文参考訳（メタデータ） (2023-01-21T11:30:13Z)
Scheduling with Predictions [0.0]
現代の学習技術により、医療画像の異常を数分で検出できるようになった。機械による診断は、放射線技師による人間の画像のレビューを確実に置き換えることはできない。本研究では,このシナリオを学習強化オンラインスケジューリング問題として定式化することによって研究する。
論文参考訳（メタデータ） (2022-12-20T17:10:06Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-13T18:24:18Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)
Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文参考訳（メタデータ） (2020-06-10T03:11:40Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。