Fugu-MT 論文翻訳(概要): Inference on Optimal Dynamic Policies via Softmax Approximation

論文の概要: Inference on Optimal Dynamic Policies via Softmax Approximation

arxiv url: http://arxiv.org/abs/2303.04416v3
Date: Wed, 13 Dec 2023 23:26:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 05:05:43.798968
Title: Inference on Optimal Dynamic Policies via Softmax Approximation
Title（参考訳）: ソフトマックス近似による最適動的政策の推理
Authors: Qizhao Chen, Morgane Austern, Vasilis Syrgkanis
Abstract要約: 最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
参考スコア（独自算出の注目度）: 27.396891119011215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating optimal dynamic policies from offline data is a fundamental problem in dynamic decision making. In the context of causal inference, the problem is known as estimating the optimal dynamic treatment regime. Even though there exists a plethora of methods for estimation, constructing confidence intervals for the value of the optimal regime and structural parameters associated with it is inherently harder, as it involves non-linear and non-differentiable functionals of unknown quantities that need to be estimated. Prior work resorted to sub-sample approaches that can deteriorate the quality of the estimate. We show that a simple soft-max approximation to the optimal treatment regime, for an appropriately fast growing temperature parameter, can achieve valid inference on the truly optimal regime. We illustrate our result for a two-period optimal dynamic regime, though our approach should directly extend to the finite horizon case. Our work combines techniques from semi-parametric inference and $g$-estimation, together with an appropriate triangular array central limit theorem, as well as a novel analysis of the asymptotic influence and asymptotic bias of softmax approximations.
Abstract（参考訳）: オフラインデータから最適な動的ポリシーを推定することは、動的意思決定における根本的な問題である。因果推論の文脈では、この問題は最適な動的治療体制を推定することとして知られている。推定のための多くの方法が存在するにもかかわらず、最適状態の値とそれに関連する構造パラメータの信頼区間を構築することは本質的に困難である。以前の作業は、見積の品質を低下させるサブサンプルアプローチに頼っていた。最適処理条件に対する簡易なソフトマックス近似により, 温度パラメータを適切に向上させることができ, 真に最適な条件を推定できることを示す。提案手法は, 有限地平線の場合へ直接拡張するが, 2周期の最適力学系について検討する。我々の研究は、半パラメトリック推論と$g$推定の手法と、適切な三角形配列中心極限定理と、ソフトマックス近似の漸近的影響と漸近的バイアスの新しい分析を組み合わせたものである。

関連論文リスト

Semiparametric Counterfactual Regression [2.356908851188234]
一般化可能なフレームワーク内での非実効的回帰のための2つの頑健なスタイル推定器を提案する。当社のアプローチでは,標準手法を維持しながら適応性を高めるために,漸進的な介入を用いる。解析の結果,提案した推定器は幅広い問題に対して$sqrn$-consistencyと正規性が得られることがわかった。
論文参考訳（メタデータ） (2025-04-03T15:32:26Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Nonparametric estimation of a covariate-adjusted counterfactual treatment regimen response curve [2.7446241148152253]
治療体制下での平均結果を柔軟に推定することは、パーソナライズされた医療にとって重要なステップである。本研究では,スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。いくつかの有限サンプル特性はシミュレーションによって探索される。
論文参考訳（メタデータ） (2023-09-28T01:46:24Z)
Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文参考訳（メタデータ） (2023-05-23T19:57:57Z)
Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding [21.38845517949153]
本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。我々は、状態-作用値関数を線形に表現するために無限次元の特徴を使い、実用的な実装のために有限次元のトランケーション近似を利用する。
論文参考訳（メタデータ） (2023-04-08T04:23:46Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文参考訳（メタデータ） (2021-10-24T04:49:35Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Near Optimality of Finite Memory Feedback Policies in Partially Observed Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文参考訳（メタデータ） (2020-10-15T00:37:51Z)
Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文参考訳（メタデータ） (2020-09-01T19:12:11Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)
Support recovery and sup-norm convergence rates for sparse pivotal estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文参考訳（メタデータ） (2020-01-15T16:11:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。