Fugu-MT 論文翻訳(概要): Robust Q-learning

論文の概要: Robust Q-learning

arxiv url: http://arxiv.org/abs/2003.12427v1
Date: Fri, 27 Mar 2020 14:10:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-19 05:32:00.610806
Title: Robust Q-learning
Title（参考訳）: ロバストなq-learning
Authors: Ashkan Ertefaie, James R. McKay, David Oslin and Robert L. Strawderman
Abstract要約: データ適応手法を用いてニュアンスパラメータを推定できる頑健なQ-ラーニング手法を提案する。本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Q-learning is a regression-based approach that is widely used to formalize the development of an optimal dynamic treatment strategy. Finite dimensional working models are typically used to estimate certain nuisance parameters, and misspecification of these working models can result in residual confounding and/or efficiency loss. We propose a robust Q-learning approach which allows estimating such nuisance parameters using data-adaptive techniques. We study the asymptotic behavior of our estimators and provide simulation studies that highlight the need for and usefulness of the proposed method in practice. We use the data from the "Extending Treatment Effectiveness of Naltrexone" multi-stage randomized trial to illustrate our proposed methods.
Abstract（参考訳）: Q-learningは回帰に基づくアプローチであり、最適な動的治療戦略の開発を形式化するために広く使われている。有限次元の作業モデルは、通常特定のニュアンスパラメータを推定するために使用され、これらの作業モデルの誤特定は、残差や効率損失をもたらす。本稿では,このような迷惑パラメータをデータ適応手法を用いて推定できるロバストなq-learning手法を提案する。本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。提案手法を説明するために,Naltrexoneの長期治療効果に関する多段階ランダム化試験のデータを用いた。

関連論文リスト

Reinforcement learning based data assimilation for unknown state model [3.032674692886751]
本研究では,強化学習とアンサンブルに基づくベイジアン・ファルトリング手法を組み合わせた新しい手法を提案する。提案フレームワークは, 非線形および部分観測計測モデルを含む, 幅広い観測シナリオに対応している。いくつかの数値的な例では,提案手法は高次元設定における精度とロバスト性を向上することを示した。
論文参考訳（メタデータ） (2025-11-04T05:58:37Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文参考訳（メタデータ） (2024-04-10T14:38:58Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文参考訳（メタデータ） (2022-08-23T12:21:01Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
MACE: An Efficient Model-Agnostic Framework for Counterfactual Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。 MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文参考訳（メタデータ） (2022-05-31T04:57:06Z)
Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文参考訳（メタデータ） (2021-11-24T15:28:50Z)
Predictive machine learning for prescriptive applications: a coupled training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文参考訳（メタデータ） (2021-10-22T15:03:20Z)
Neural Networks for Parameter Estimation in Intractable Models [0.0]
本稿では,最大安定過程からパラメータを推定する方法を示す。モデルシミュレーションのデータを入力として使用し,統計的パラメータを学習するために深層ニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2021-07-29T21:59:48Z)
A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-08T16:38:15Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)
Active Learning for Gaussian Process Considering Uncertainties with Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文参考訳（メタデータ） (2020-04-23T02:04:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。