Fugu-MT 論文翻訳(概要): Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework

論文の概要: Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework

arxiv url: http://arxiv.org/abs/2309.13278v1
Date: Sat, 23 Sep 2023 06:35:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 20:52:42.185886
Title: Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework
Title（参考訳）: 分散シフトを考慮したオフ・ポリティ・インターバル推定:統一誤差定量化フレームワーク
Authors: Wenzhuo Zhou, Yuhan Li, Ruoqing Zhu, Annie Qu
Abstract要約: 本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
参考スコア（独自算出の注目度）: 8.572441599469597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study high-confidence off-policy evaluation in the context of infinite-horizon Markov decision processes, where the objective is to establish a confidence interval (CI) for the target policy value using only offline data pre-collected from unknown behavior policies. This task faces two primary challenges: providing a comprehensive and rigorous error quantification in CI estimation, and addressing the distributional shift that results from discrepancies between the distribution induced by the target policy and the offline data-generating process. Motivated by an innovative unified error analysis, we jointly quantify the two sources of estimation errors: the misspecification error on modeling marginalized importance weights and the statistical uncertainty due to sampling, within a single interval. This unified framework reveals a previously hidden tradeoff between the errors, which undermines the tightness of the CI. Relying on a carefully designed discriminator function, the proposed estimator achieves a dual purpose: breaking the curse of the tradeoff to attain the tightest possible CI, and adapting the CI to ensure robustness against distributional shifts. Our method is applicable to time-dependent data without assuming any weak dependence conditions via leveraging a local supermartingale/martingale structure. Theoretically, we show that our algorithm is sample-efficient, error-robust, and provably convergent even in non-linear function approximation settings. The numerical performance of the proposed method is examined in synthetic datasets and an OhioT1DM mobile health study.
Abstract（参考訳）: 本研究では,未知行動政策から事前収集したオフラインデータのみを用いて,目標政策値に対する信頼区間(ci)を確立することを目的とした,無限ホリゾンマルコフ決定過程の文脈における高信頼オフポリシー評価について検討する。このタスクは,CI推定における包括的かつ厳密なエラー定量化の提供と,ターゲットポリシとオフラインデータ生成プロセスによる分散の相違による分散シフトへの対処という,2つの課題に直面する。再帰的統一的誤差解析によって得られた2つの推定誤差は, 限界化重みのモデル化における誤特定誤差と, サンプリングによる統計的不確実性である。この統一されたフレームワークは、ciの厳しさを損なうエラー間の以前の隠れたトレードオフを明らかにする。慎重に設計された差別化関数に基づいて、提案された推定子は、最も厳しいCIを達成するためにトレードオフの呪いを破り、分散シフトに対する堅牢性を確保するためにCIを適用するという2つの目的を達成する。本手法は,局所スーパーマーチンゲール/マーチンゲール構造を利用して,弱い依存条件を仮定することなく,時間依存データに適用できる。理論的には,本アルゴリズムは,非線型関数近似設定においても,サンプリング効率,誤差ローバスト,および有意収束性を示す。提案手法の数値計算性能は, 合成データセットおよびOttoT1DMモバイルヘルススタディで検証した。

関連論文リスト

Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文参考訳（メタデータ） (2025-08-11T02:33:53Z)
Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文参考訳（メタデータ） (2025-07-14T18:34:10Z)
Statistical Inference for Conditional Group Distributionally Robust Optimization with Cross-Entropy Loss [9.054486124506521]
本研究では,複数のソースドメインからラベル付きデータを抽出し,対象ドメインからラベル付きデータのみを抽出するマルチソース非教師付きドメイン適応について検討する。本稿では,条件条件分布の凸結合に対する最悪のクロスエントロピー損失を最小限に抑え,分類器を学習する新しい条件条件最適化(CG-DRO)フレームワークを提案する。理論的ブリッジとして機能する2つのサロゲート極小最適化問題を構築することにより、推定器の高速な統計的収束率を確立する。
論文参考訳（メタデータ） (2025-07-14T04:21:23Z)
Temporal Distribution Shift in Real-World Pharmaceutical Data: Implications for Uncertainty Quantification in QSAR Models [1.9354018523009415]
機械学習モデルにおける予測の不確実性を推定するいくつかの計算ツールが存在する。 I. I. D. 設定からの逸脱はこれらの不確実な定量化方法のパフォーマンスを損なうことが示されている。我々は,不確実性評価手法の総合的,大規模評価の必要性に対処するために,現実世界の医薬品データセットを用いている。
論文参考訳（メタデータ） (2025-02-06T11:26:04Z)
Error-quantified Conformal Inference for Time Series [55.11926160774831]
時系列予測の不確かさの定量化は、時系列データの時間的依存と分布シフトのために困難である。量子化損失関数をスムースにすることで,iError-quantified Conformal Inference (ECI)を提案する。 ECIは有効な誤発見制御と、他のベースラインよりも厳密な予測セットを出力することができる。
論文参考訳（メタデータ） (2025-02-02T15:02:36Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
Distributionally robust risk evaluation with an isotonic constraint [20.74502777102024]
分布的に堅牢な学習は、不確実な分布の集合内で最悪のケースの統計性能を制御することを目的としている。本稿では,未知のターゲット分布が推定値と異なる方法に関する事前情報を組み込んだDRLの形状制約手法を提案する。合成データと実データの両方に関する実証研究は、提案した形状制約手法の精度の向上を実証している。
論文参考訳（メタデータ） (2024-07-09T13:56:34Z)
Optimal Aggregation of Prediction Intervals under Unsupervised Domain Shift [9.387706860375461]
分散シフトは、基礎となるデータ生成プロセスが変化したときに発生し、モデルの性能のずれにつながる。予測間隔は、その基礎となる分布によって引き起こされる不確実性を特徴づける重要なツールとして機能する。予測区間を集約し,最小の幅と対象領域を適切にカバーする手法を提案する。
論文参考訳（メタデータ） (2024-05-16T17:55:42Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Learning Calibrated Uncertainties for Domain Shift: A Distributionally Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。提案手法は下流タスクに有利な校正不確実性を生成する。
論文参考訳（メタデータ） (2020-10-08T02:10:54Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)
Estimating Uncertainty Intervals from Collaborating Networks [15.467208581231848]
本稿では,2つの損失関数を持つ2つのニューラルネットワークを定義することにより,回帰の予測分布を推定する新しい手法を提案する。具体的には、あるネットワークは累積分布関数を近似し、2番目のネットワークはその逆を近似する。我々は、糖尿病患者のA1c値を電子健康記録から予測するなど、CNを2つの合成および6つの実世界のデータセットに対するいくつかの一般的なアプローチと比較した。
論文参考訳（メタデータ） (2020-02-12T20:10:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。