論文の概要: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment
Effect Models to Interpretable Policies
- arxiv url: http://arxiv.org/abs/2111.03267v1
- Date: Fri, 5 Nov 2021 05:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:45:30.932805
- Title: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment
Effect Models to Interpretable Policies
- Title(参考訳): 異質性蒸留--異種処理効果モデルの説明から解釈可能な方針へ
- Authors: Han Wu, Sarah Tan, Weiwei Li, Mia Garrard, Adam Obeng, Drew Dimmery,
Shaun Singh, Hanson Wang, Daniel Jiang, Eytan Bakshy
- Abstract要約: インターネット企業は、パーソナライズされたポリシーを作成するために、機械学習モデルの利用が増えている。
本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。
- 参考スコア(独自算出の注目度): 20.49457959718515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internet companies are increasingly using machine learning models to create
personalized policies which assign, for each individual, the best predicted
treatment for that individual. They are frequently derived from black-box
heterogeneous treatment effect (HTE) models that predict individual-level
treatment effects. In this paper, we focus on (1) learning explanations for HTE
models; (2) learning interpretable policies that prescribe treatment
assignments. We also propose guidance trees, an approach to ensemble multiple
interpretable policies without the loss of interpretability. These rule-based
interpretable policies are easy to deploy and avoid the need to maintain a HTE
model in a production environment.
- Abstract(参考訳): インターネット企業は、機械学習モデルを使用して、個人ごとに最適な予測された治療を割り当てるパーソナライズされたポリシーを作成しつつある。
これらは、個々のレベルの治療効果を予測するブラックボックス不均一治療効果(HTE)モデルからしばしば導かれる。
本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。
また,解釈可能性を失うことなく複数の解釈可能なポリシーをアンサンブルするためのガイダンスツリーを提案する。
これらのルールベースの解釈可能なポリシーは、デプロイが容易で、本番環境でHTEモデルをメンテナンスする必要がない。
関連論文リスト
- Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning [39.093299601701474]
解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のアプローチは、基本的な決定プロセスを普遍的なポリシーとして表現するため、このトレードオフによって負担される。
我々は,複雑な意思決定プロセスのモデリング問題をマルチタスク学習問題として再構成する,文脈対応型政策回復(CPR)を開発する。
論文 参考訳(メタデータ) (2023-10-11T22:17:37Z) - Effect-Invariant Mechanisms for Policy Generalization [3.701112941066256]
不変条件分布を利用して、目に見えない環境をより一般化するモデルを学ぶことが提案されている。
効果不変性(英語版)と呼ばれる完全な不変性の緩和を導入し、ゼロショットポリシーの一般化には適切な仮定の下で十分であることを示す。
シミュレーションデータと移動体保健介入データセットを用いて実験結果を提示し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:50:24Z) - Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2023-01-17T19:05:17Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。