Fugu-MT 論文翻訳(概要): Distilling Heterogeneity: From Explanations of Heterogeneous Treatment Effect Models to Interpretable Policies

論文の概要: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment Effect Models to Interpretable Policies

arxiv url: http://arxiv.org/abs/2111.03267v1
Date: Fri, 5 Nov 2021 05:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-08 14:45:30.932805
Title: Distilling Heterogeneity: From Explanations of Heterogeneous Treatment Effect Models to Interpretable Policies
Title（参考訳）: 異質性蒸留--異種処理効果モデルの説明から解釈可能な方針へ
Authors: Han Wu, Sarah Tan, Weiwei Li, Mia Garrard, Adam Obeng, Drew Dimmery, Shaun Singh, Hanson Wang, Daniel Jiang, Eytan Bakshy
Abstract要約: インターネット企業は、パーソナライズされたポリシーを作成するために、機械学習モデルの利用が増えている。本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。
参考スコア（独自算出の注目度）: 20.49457959718515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Internet companies are increasingly using machine learning models to create personalized policies which assign, for each individual, the best predicted treatment for that individual. They are frequently derived from black-box heterogeneous treatment effect (HTE) models that predict individual-level treatment effects. In this paper, we focus on (1) learning explanations for HTE models; (2) learning interpretable policies that prescribe treatment assignments. We also propose guidance trees, an approach to ensemble multiple interpretable policies without the loss of interpretability. These rule-based interpretable policies are easy to deploy and avoid the need to maintain a HTE model in a production environment.
Abstract（参考訳）: インターネット企業は、機械学習モデルを使用して、個人ごとに最適な予測された治療を割り当てるパーソナライズされたポリシーを作成しつつある。これらは、個々のレベルの治療効果を予測するブラックボックス不均一治療効果(HTE)モデルからしばしば導かれる。本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。また,解釈可能性を失うことなく複数の解釈可能なポリシーをアンサンブルするためのガイダンスツリーを提案する。これらのルールベースの解釈可能なポリシーは、デプロイが容易で、本番環境でHTEモデルをメンテナンスする必要がない。

関連論文リスト

Pragmatic Policy Development via Interpretable Behavior Cloning [6.177449809243359]
本稿では,患者の行動方針の解釈可能なモデルを用いて,各患者の状態において最も頻繁に選択される行動から治療方針を導出する。このフレームワークによって導かれるポリシーは,オフラインのRLで得られるものに対して,解釈可能な代替手段を提供することで,現在の実践を上回り得ることを実証する。
論文参考訳（メタデータ） (2025-07-22T22:34:35Z)
Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-14T15:44:10Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
How Should We Represent History in Interpretable Models of Clinical Policies? [6.423626797089031]
臨床方針の解釈可能なモデリングのための患者履歴を要約するアプローチを体系的に比較する。学習した表現を用いた解釈可能なシーケンスモデルは、すべてのタスクにわたるブラックボックスモデルと同等に機能する。
論文参考訳（メタデータ） (2024-12-10T20:03:17Z)
Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文参考訳（メタデータ） (2024-12-09T20:18:43Z)
Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文参考訳（メタデータ） (2024-10-31T20:05:51Z)
Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文参考訳（メタデータ） (2024-07-10T21:55:44Z)
Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文参考訳（メタデータ） (2024-03-21T11:54:45Z)
Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning [39.093299601701474]
解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。既存のアプローチは、基本的な決定プロセスを普遍的なポリシーとして表現するため、このトレードオフによって負担される。我々は,複雑な意思決定プロセスのモデリング問題をマルチタスク学習問題として再構成する,文脈対応型政策回復(CPR)を開発する。
論文参考訳（メタデータ） (2023-10-11T22:17:37Z)
Effect-Invariant Mechanisms for Policy Generalization [3.701112941066256]
不変条件分布を利用して、目に見えない環境をより一般化するモデルを学ぶことが提案されている。効果不変性(英語版)と呼ばれる完全な不変性の緩和を導入し、ゼロショットポリシーの一般化には適切な仮定の下で十分であることを示す。シミュレーションデータと移動体保健介入データセットを用いて実験結果を提示し,本手法の有効性を実証した。
論文参考訳（メタデータ） (2023-06-19T14:50:24Z)
Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文参考訳（メタデータ） (2023-01-17T19:05:17Z)
Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文参考訳（メタデータ） (2022-11-27T21:43:45Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Model-Based Imitation Learning Using Entropy Regularization of Model and Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文参考訳（メタデータ） (2022-06-21T04:15:12Z)
Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。逆生成したサンプルはドメイン適応時に使用される。その結果,本手法の有効性とタスクの一般性が確認された。
論文参考訳（メタデータ） (2021-01-13T03:20:20Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。