論文の概要: Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment Effect
- arxiv url: http://arxiv.org/abs/2411.14341v1
- Date: Thu, 21 Nov 2024 17:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:26.397002
- Title: Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment Effect
- Title(参考訳): 平均処理効果の適応推定のための対数ネマンレグレット
- Authors: Ojash Neopane, Aaditya Ramdas, Aarti Singh,
- Abstract要約: 強化学習における外部評価と強い関係を持つ因果推論における平均処理効果(ATE)の推定は中核的な問題である。
本稿では、ATEの推定を改善するために、処理割り当て確率を適応的に選択する問題を考察する。
- 参考スコア(独自算出の注目度): 36.25361703897723
- License:
- Abstract: Estimation of the Average Treatment Effect (ATE) is a core problem in causal inference with strong connections to Off-Policy Evaluation in Reinforcement Learning. This paper considers the problem of adaptively selecting the treatment allocation probability in order to improve estimation of the ATE. The majority of prior work on adaptive ATE estimation focus on asymptotic guarantees, and in turn overlooks important practical considerations such as the difficulty of learning the optimal treatment allocation as well as hyper-parameter selection. Existing non-asymptotic methods are limited by poor empirical performance and exponential scaling of the Neyman regret with respect to problem parameters. In order to address these gaps, we propose and analyze the Clipped Second Moment Tracking (ClipSMT) algorithm, a variant of an existing algorithm with strong asymptotic optimality guarantees, and provide finite sample bounds on its Neyman regret. Our analysis shows that ClipSMT achieves exponential improvements in Neyman regret on two fronts: improving the dependence on $T$ from $O(\sqrt{T})$ to $O(\log T)$, as well as reducing the exponential dependence on problem parameters to a polynomial dependence. Finally, we conclude with simulations which show the marked improvement of ClipSMT over existing approaches.
- Abstract(参考訳): 強化学習における外部評価と強い関係を持つ因果推論における平均処理効果(ATE)の推定は中核的な問題である。
本稿では、ATEの推定を改善するために、処理割り当て確率を適応的に選択する問題を考察する。
アダプティブATE推定の先行研究の大半は漸近的保証に焦点を当てており、最適処理割り当ての学習の難しさやハイパーパラメータ選択といった重要な実践的考察を見逃している。
既存の非漸近的手法は、問題のパラメータに関して、経験的性能の低さと、ネイマンの後悔の指数的スケーリングによって制限される。
これらのギャップに対処するために、我々は、強い漸近的最適性を保証する既存のアルゴリズムの変種であるClipped Second Moment Tracking (ClipSMT) アルゴリズムを提案し、分析し、Neyman の後悔に対する有限サンプル境界を提供する。
解析の結果、ClipSMTは、$T$の依存性を$O(\sqrt{T})$から$O(\log T)$に改善し、問題パラメータへの指数的依存を多項式依存に減らした。
最後に,既存のアプローチよりもClipSMTが顕著に向上したことを示すシミュレーションを締めくくる。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Online Learning Approach for Survival Analysis [1.0499611180329806]
生存分析のためのオンライン数学フレームワークを導入し、動的環境や検閲データへのリアルタイム適応を可能にする。
このフレームワークは、最適2階オンライン凸最適化アルゴリズムによるイベント時間分布の推定を可能にする-オンラインニュートンステップ(ONS)
論文 参考訳(メタデータ) (2024-02-07T08:15:30Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Parameter-Agnostic Optimization under Relaxed Smoothness [25.608968462899316]
本研究では,モメンタムを用いた正規化グラディエントDescence (NSGD-M) が,問題パラメータの事前知識を必要とせずに,速度-最適の複雑性を実現できることを示す。
決定論的設定では、指数係数は、バックトラックラインサーチによるグラディエント・ディクスト(Gradient Descent)を用いることで、中和することができる。
論文 参考訳(メタデータ) (2023-11-06T16:39:53Z) - Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文 参考訳(メタデータ) (2023-03-08T07:42:47Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z) - AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-01-18T03:13:19Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。