論文の概要: AVG-DICE: Stationary Distribution Correction by Regression
- arxiv url: http://arxiv.org/abs/2503.02125v1
- Date: Mon, 03 Mar 2025 23:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:26.947638
- Title: AVG-DICE: Stationary Distribution Correction by Regression
- Title(参考訳): AVG-DICE:回帰による定常分布補正
- Authors: Fengdi Che, Bryan Chan, Chen Ma, A. Rupam Mahmood,
- Abstract要約: オフ政治政策評価(OPE)は、長い間、定常的な状態分布ミスマッチに悩まされてきた。
AVG-DICEは密度比を計算的にシンプルなモンテカルロ推定器である。
我々の実験では、AVG-DICEは最先端の推定器と同じくらい正確であり、時にはマグニチュードの改良を提供する。
- 参考スコア(独自算出の注目度): 7.193870502672509
- License:
- Abstract: Off-policy policy evaluation (OPE), an essential component of reinforcement learning, has long suffered from stationary state distribution mismatch, undermining both stability and accuracy of OPE estimates. While existing methods correct distribution shifts by estimating density ratios, they often rely on expensive optimization or backward Bellman-based updates and struggle to outperform simpler baselines. We introduce AVG-DICE, a computationally simple Monte Carlo estimator for the density ratio that averages discounted importance sampling ratios, providing an unbiased and consistent correction. AVG-DICE extends naturally to nonlinear function approximation using regression, which we roughly tune and test on OPE tasks based on Mujoco Gym environments and compare with state-of-the-art density-ratio estimators using their reported hyperparameters. In our experiments, AVG-DICE is at least as accurate as state-of-the-art estimators and sometimes offers orders-of-magnitude improvements. However, a sensitivity analysis shows that best-performing hyperparameters may vary substantially across different discount factors, so a re-tuning is suggested.
- Abstract(参考訳): 強化学習の重要な要素であるオフ政治政策評価(OPE)は、長い間、定常的な状態分布のミスマッチに悩まされ、OPE推定の安定性と精度を損なわれてきた。
既存の方法では密度比を推定することで分布シフトを補正するが、高価な最適化やベルマンベースの更新に頼り、より単純なベースラインを上回るのに苦労することが多い。
計算学的に単純なモンテカルロ推定器であるAVG-DICEを導入する。
AVG-DICEは、回帰を用いた非線形関数近似に自然に拡張され、Mujoco Gym環境に基づくOPEタスクを概ねチューニングおよびテストし、報告されたハイパーパラメータを用いた最先端密度比推定器と比較する。
我々の実験では、AVG-DICEは最先端の推定器と同じくらい正確であり、時にはマグニチュードの改良を提供する。
しかし、感度分析により、最高の性能のハイパーパラメータは、異なる割引要因によって大きく異なる可能性があることが示され、再調整が提案される。
関連論文リスト
- Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Nearest Neighbor Sampling for Covariate Shift Adaptation [7.940293148084844]
重みを推定しない新しい共変量シフト適応法を提案する。
基本的な考え方は、ソースデータセットの$k$-nearestの隣人によってラベル付けされたラベル付けされていないターゲットデータを直接扱うことだ。
実験の結果, 走行時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:28:09Z) - Optimal Training of Mean Variance Estimation Neural Networks [1.4610038284393165]
本稿では,平均変数推定ネットワーク(MVEネットワーク)の最適実装に焦点をあてる(Nix and Weigend, 1994)。
MVEネットワークは、平均関数と分散関数を持つ正規分布からデータを生成すると仮定する。
本稿では,MVEネットワークの新たな改良点として,平均値と分散推定値を分離した正規化を提案する。
論文 参考訳(メタデータ) (2023-02-17T13:44:47Z) - Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio [8.071506311915396]
一般的な方法、いわゆるポリシ最適化(PPO)とその変種は、密度比が与えられた閾値を超える場合に、最新のポリシーとベースラインポリシーの密度比を制約する。
本稿では,相対的ピアソン(RPE)偏差を用いた新しいPPO(PPO-RPE)を提案し,その閾値を適応的に設計する。
論文 参考訳(メタデータ) (2022-03-18T09:13:13Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Variational Variance: Simple, Reliable, Calibrated Heteroscedastic Noise
Variance Parameterization [3.553493344868413]
本稿では,予測平均と分散キャリブレーションを検証し,予測分布が有意義なデータを生成する能力を評価するための批評を提案する。
ヘテロセダスティックな分散を多変量に処理するためには、これらのPPCを通過させるために分散を十分に規則化する必要がある。
論文 参考訳(メタデータ) (2020-06-08T19:58:35Z) - Comment: Entropy Learning for Dynamic Treatment Regimes [58.442274475425144]
JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
論文 参考訳(メタデータ) (2020-04-06T16:11:05Z) - Pareto Smoothed Importance Sampling [8.705872384531318]
重み付けはモンテカルロ積分を調整する一般的な方法であり、間違った分布からの引き分けを考慮に入れている。
これは、近似分布によってうまく捉えられていない対象分布の側面が存在する場合に、日常的に発生する。
シミュレーションされた重要度比の分布の上限に適合する一般化されたパレート分布を用いて、重要度重みを安定化する新しい方法を提案する。
論文 参考訳(メタデータ) (2015-07-09T18:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。