論文の概要: Inference on Optimal Dynamic Policies via Softmax Approximation
- arxiv url: http://arxiv.org/abs/2303.04416v3
- Date: Wed, 13 Dec 2023 23:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 05:05:43.798968
- Title: Inference on Optimal Dynamic Policies via Softmax Approximation
- Title(参考訳): ソフトマックス近似による最適動的政策の推理
- Authors: Qizhao Chen, Morgane Austern, Vasilis Syrgkanis
- Abstract要約: 最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
- 参考スコア(独自算出の注目度): 27.396891119011215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating optimal dynamic policies from offline data is a fundamental
problem in dynamic decision making. In the context of causal inference, the
problem is known as estimating the optimal dynamic treatment regime. Even
though there exists a plethora of methods for estimation, constructing
confidence intervals for the value of the optimal regime and structural
parameters associated with it is inherently harder, as it involves non-linear
and non-differentiable functionals of unknown quantities that need to be
estimated. Prior work resorted to sub-sample approaches that can deteriorate
the quality of the estimate. We show that a simple soft-max approximation to
the optimal treatment regime, for an appropriately fast growing temperature
parameter, can achieve valid inference on the truly optimal regime. We
illustrate our result for a two-period optimal dynamic regime, though our
approach should directly extend to the finite horizon case. Our work combines
techniques from semi-parametric inference and $g$-estimation, together with an
appropriate triangular array central limit theorem, as well as a novel analysis
of the asymptotic influence and asymptotic bias of softmax approximations.
- Abstract(参考訳): オフラインデータから最適な動的ポリシーを推定することは、動的意思決定における根本的な問題である。
因果推論の文脈では、この問題は最適な動的治療体制を推定することとして知られている。
推定のための多くの方法が存在するにもかかわらず、最適状態の値とそれに関連する構造パラメータの信頼区間を構築することは本質的に困難である。
以前の作業は、見積の品質を低下させるサブサンプルアプローチに頼っていた。
最適処理条件に対する簡易なソフトマックス近似により, 温度パラメータを適切に向上させることができ, 真に最適な条件を推定できることを示す。
提案手法は, 有限地平線の場合へ直接拡張するが, 2周期の最適力学系について検討する。
我々の研究は、半パラメトリック推論と$g$推定の手法と、適切な三角形配列中心極限定理と、ソフトマックス近似の漸近的影響と漸近的バイアスの新しい分析を組み合わせたものである。
関連論文リスト
- Nonparametric estimation of a covariate-adjusted counterfactual
treatment regimen response curve [2.7446241148152253]
治療体制下での平均結果を柔軟に推定することは、パーソナライズされた医療にとって重要なステップである。
本研究では,スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。
いくつかの有限サンプル特性はシミュレーションによって探索される。
論文 参考訳(メタデータ) (2023-09-28T01:46:24Z) - Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文 参考訳(メタデータ) (2023-05-23T19:57:57Z) - Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding [21.38845517949153]
本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。
我々は、状態-作用値関数を線形に表現するために無限次元の特徴を使い、実用的な実装のために有限次元のトランケーション近似を利用する。
論文 参考訳(メタデータ) (2023-04-08T04:23:46Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。
不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。
当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文 参考訳(メタデータ) (2021-10-24T04:49:35Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。