論文の概要: Robust Q-learning
- arxiv url: http://arxiv.org/abs/2003.12427v1
- Date: Fri, 27 Mar 2020 14:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:32:00.610806
- Title: Robust Q-learning
- Title(参考訳): ロバストなq-learning
- Authors: Ashkan Ertefaie, James R. McKay, David Oslin and Robert L. Strawderman
- Abstract要約: データ適応手法を用いてニュアンスパラメータを推定できる頑健なQ-ラーニング手法を提案する。
本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning is a regression-based approach that is widely used to formalize
the development of an optimal dynamic treatment strategy. Finite dimensional
working models are typically used to estimate certain nuisance parameters, and
misspecification of these working models can result in residual confounding
and/or efficiency loss. We propose a robust Q-learning approach which allows
estimating such nuisance parameters using data-adaptive techniques. We study
the asymptotic behavior of our estimators and provide simulation studies that
highlight the need for and usefulness of the proposed method in practice. We
use the data from the "Extending Treatment Effectiveness of Naltrexone"
multi-stage randomized trial to illustrate our proposed methods.
- Abstract(参考訳): Q-learningは回帰に基づくアプローチであり、最適な動的治療戦略の開発を形式化するために広く使われている。
有限次元の作業モデルは、通常特定のニュアンスパラメータを推定するために使用され、これらの作業モデルの誤特定は、残差や効率損失をもたらす。
本稿では,このような迷惑パラメータをデータ適応手法を用いて推定できるロバストなq-learning手法を提案する。
本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。
提案手法を説明するために,Naltrexoneの長期治療効果に関する多段階ランダム化試験のデータを用いた。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。
我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文 参考訳(メタデータ) (2021-11-24T15:28:50Z) - Predictive machine learning for prescriptive applications: a coupled
training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。
このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。
合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文 参考訳(メタデータ) (2021-10-22T15:03:20Z) - Neural Networks for Parameter Estimation in Intractable Models [0.0]
本稿では,最大安定過程からパラメータを推定する方法を示す。
モデルシミュレーションのデータを入力として使用し,統計的パラメータを学習するために深層ニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2021-07-29T21:59:48Z) - A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。
透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。
半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-08T16:38:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。