論文の概要: Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework
- arxiv url: http://arxiv.org/abs/2309.13278v2
- Date: Mon, 2 Oct 2023 00:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 12:50:13.423659
- Title: Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework
- Title(参考訳): 分散シフトを考慮したオフ・ポリティ・インターバル推定:統一誤差定量化フレームワーク
- Authors: Wenzhuo Zhou, Yuhan Li, Ruoqing Zhu, Annie Qu
- Abstract要約: 本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
- 参考スコア(独自算出の注目度): 8.572441599469597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study high-confidence off-policy evaluation in the context of
infinite-horizon Markov decision processes, where the objective is to establish
a confidence interval (CI) for the target policy value using only offline data
pre-collected from unknown behavior policies. This task faces two primary
challenges: providing a comprehensive and rigorous error quantification in CI
estimation, and addressing the distributional shift that results from
discrepancies between the distribution induced by the target policy and the
offline data-generating process. Motivated by an innovative unified error
analysis, we jointly quantify the two sources of estimation errors: the
misspecification error on modeling marginalized importance weights and the
statistical uncertainty due to sampling, within a single interval. This unified
framework reveals a previously hidden tradeoff between the errors, which
undermines the tightness of the CI. Relying on a carefully designed
discriminator function, the proposed estimator achieves a dual purpose:
breaking the curse of the tradeoff to attain the tightest possible CI, and
adapting the CI to ensure robustness against distributional shifts. Our method
is applicable to time-dependent data without assuming any weak dependence
conditions via leveraging a local supermartingale/martingale structure.
Theoretically, we show that our algorithm is sample-efficient, error-robust,
and provably convergent even in non-linear function approximation settings. The
numerical performance of the proposed method is examined in synthetic datasets
and an OhioT1DM mobile health study.
- Abstract(参考訳): 本研究では,未知行動政策から事前収集したオフラインデータのみを用いて,目標政策値に対する信頼区間(ci)を確立することを目的とした,無限ホリゾンマルコフ決定過程の文脈における高信頼オフポリシー評価について検討する。
このタスクは,CI推定における包括的かつ厳密なエラー定量化の提供と,ターゲットポリシとオフラインデータ生成プロセスによる分散の相違による分散シフトへの対処という,2つの課題に直面する。
再帰的統一的誤差解析によって得られた2つの推定誤差は, 限界化重みのモデル化における誤特定誤差と, サンプリングによる統計的不確実性である。
この統一されたフレームワークは、ciの厳しさを損なうエラー間の以前の隠れたトレードオフを明らかにする。
慎重に設計された差別化関数に基づいて、提案された推定子は、最も厳しいCIを達成するためにトレードオフの呪いを破り、分散シフトに対する堅牢性を確保するためにCIを適用するという2つの目的を達成する。
本手法は,局所スーパーマーチンゲール/マーチンゲール構造を利用して,弱い依存条件を仮定することなく,時間依存データに適用できる。
理論的には,本アルゴリズムは,非線型関数近似設定においても,サンプリング効率,誤差ローバスト,および有意収束性を示す。
提案手法の数値計算性能は, 合成データセットおよびOttoT1DMモバイルヘルススタディで検証した。
関連論文リスト
- Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Estimating Uncertainty Intervals from Collaborating Networks [15.467208581231848]
本稿では,2つの損失関数を持つ2つのニューラルネットワークを定義することにより,回帰の予測分布を推定する新しい手法を提案する。
具体的には、あるネットワークは累積分布関数を近似し、2番目のネットワークはその逆を近似する。
我々は、糖尿病患者のA1c値を電子健康記録から予測するなど、CNを2つの合成および6つの実世界のデータセットに対するいくつかの一般的なアプローチと比較した。
論文 参考訳(メタデータ) (2020-02-12T20:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。