論文の概要: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment
Effect Models to Interpretable Policies
- arxiv url: http://arxiv.org/abs/2111.03267v1
- Date: Fri, 5 Nov 2021 05:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:45:30.932805
- Title: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment
Effect Models to Interpretable Policies
- Title(参考訳): 異質性蒸留--異種処理効果モデルの説明から解釈可能な方針へ
- Authors: Han Wu, Sarah Tan, Weiwei Li, Mia Garrard, Adam Obeng, Drew Dimmery,
Shaun Singh, Hanson Wang, Daniel Jiang, Eytan Bakshy
- Abstract要約: インターネット企業は、パーソナライズされたポリシーを作成するために、機械学習モデルの利用が増えている。
本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。
- 参考スコア(独自算出の注目度): 20.49457959718515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internet companies are increasingly using machine learning models to create
personalized policies which assign, for each individual, the best predicted
treatment for that individual. They are frequently derived from black-box
heterogeneous treatment effect (HTE) models that predict individual-level
treatment effects. In this paper, we focus on (1) learning explanations for HTE
models; (2) learning interpretable policies that prescribe treatment
assignments. We also propose guidance trees, an approach to ensemble multiple
interpretable policies without the loss of interpretability. These rule-based
interpretable policies are easy to deploy and avoid the need to maintain a HTE
model in a production environment.
- Abstract(参考訳): インターネット企業は、機械学習モデルを使用して、個人ごとに最適な予測された治療を割り当てるパーソナライズされたポリシーを作成しつつある。
これらは、個々のレベルの治療効果を予測するブラックボックス不均一治療効果(HTE)モデルからしばしば導かれる。
本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。
また,解釈可能性を失うことなく複数の解釈可能なポリシーをアンサンブルするためのガイダンスツリーを提案する。
これらのルールベースの解釈可能なポリシーは、デプロイが容易で、本番環境でHTEモデルをメンテナンスする必要がない。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - How Should We Represent History in Interpretable Models of Clinical Policies? [6.423626797089031]
臨床方針の解釈可能なモデリングのための患者履歴を要約するアプローチを体系的に比較する。
学習した表現を用いた解釈可能なシーケンスモデルは、すべてのタスクにわたるブラックボックスモデルと同等に機能する。
論文 参考訳(メタデータ) (2024-12-10T20:03:17Z) - Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。
未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。
これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文 参考訳(メタデータ) (2024-12-09T20:18:43Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Effect-Invariant Mechanisms for Policy Generalization [3.701112941066256]
不変条件分布を利用して、目に見えない環境をより一般化するモデルを学ぶことが提案されている。
効果不変性(英語版)と呼ばれる完全な不変性の緩和を導入し、ゼロショットポリシーの一般化には適切な仮定の下で十分であることを示す。
シミュレーションデータと移動体保健介入データセットを用いて実験結果を提示し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:50:24Z) - Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2023-01-17T19:05:17Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。