論文の概要: Online Policy Learning via a Self-Normalized Maximal Inequality
- arxiv url: http://arxiv.org/abs/2510.15483v1
- Date: Fri, 17 Oct 2025 09:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.563579
- Title: Online Policy Learning via a Self-Normalized Maximal Inequality
- Title(参考訳): 自己Normalized Maximal Inequalityによるオンライン政策学習
- Authors: Samuel Girard, Aurélien Bibaut, Houssam Zenati,
- Abstract要約: マルティンゲール経験過程における自己正規化最大不等式を開発した。
逐次更新と標準複雑性とマージン条件で組み合わせると、推定器は高速収束率が得られることを示す。
- 参考スコア(独自算出の注目度): 4.906641452356241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive experiments produce dependent data that break i.i.d. assumptions that underlie classical concentration bounds and invalidate standard learning guarantees. In this paper, we develop a self-normalized maximal inequality for martingale empirical processes. Building on this, we first propose an adaptive sample-variance penalization procedure which balances empirical loss and sample variance, valid for general dependent data. Next, this allows us to derive a new variance-regularized pessimistic off-policy learning objective, for which we establish excess-risk guarantees. Subsequently, we show that, when combined with sequential updates and under standard complexity and margin conditions, the resulting estimator achieves fast convergence rates in both parametric and nonparametric regimes, improving over the usual $1/\sqrt{n}$ baseline. We complement our theoretical findings with numerical simulations that illustrate the practical gains of our approach.
- Abstract(参考訳): 適応実験(Adaptive experiment)は、古典的な濃度境界を低くし、標準学習保証を無効にする仮定を破る依存データを生成する。
本稿では,マルティンゲール実験プロセスにおける自己正規化最大不等式を開発する。
そこで我々はまず, 一般依存データに適用可能な, 経験的損失とサンプル分散のバランスをとる適応型サンプル分散ペナル化手法を提案する。
次に、分散規則化された悲観的非政治学習目標を導出し、過度なリスク保証を確立する。
その後、逐次更新と標準複雑性とマージン条件を併用すると、パラメトリックと非パラメトリックの双方における高速収束率を推定し、通常の1/\sqrt{n}$ベースラインよりも改善することを示した。
提案手法の実用的利益を示す数値シミュレーションを用いて理論的知見を補完する。
関連論文リスト
- Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。