論文の概要: PAC-Bayes Meets Online Contextual Optimization
- arxiv url: http://arxiv.org/abs/2511.20413v1
- Date: Tue, 25 Nov 2025 15:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.531232
- Title: PAC-Bayes Meets Online Contextual Optimization
- Title(参考訳): PAC-Bayesがオンラインコンテキスト最適化をローンチ
- Authors: Zhuojun Xie, Adam Abdin, Yiping Fang,
- Abstract要約: この作業は、私たちの知る限り、最初のオンラインコンテキスト最適化フレームワークを紹介します。
PAC-Bayes理論と一般ベイズ的更新原理に基づいて、我々のフレームワークはGibs後部を通した有界および混合可能な損失に対して$mathcalO(sqrtT)$ regretを達成する。
- 参考スコア(独自算出の注目度): 4.004966432215451
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The predict-then-optimize paradigm bridges online learning and contextual optimization in dynamic environments. Previous works have investigated the sequential updating of predictors using feedback from downstream decisions to minimize regret in the full-information settings. However, existing approaches are predominantly frequentist, rely heavily on gradient-based strategies, and employ deterministic predictors that could yield high variance in practice despite their asymptotic guarantees. This work introduces, to the best of our knowledge, the first Bayesian online contextual optimization framework. Grounded in PAC-Bayes theory and general Bayesian updating principles, our framework achieves $\mathcal{O}(\sqrt{T})$ regret for bounded and mixable losses via a Gibbs posterior, eliminates the dependence on gradients through sequential Monte Carlo samplers, and thereby accommodates nondifferentiable problems. Theoretical developments and numerical experiments substantiate our claims.
- Abstract(参考訳): 予測テーマ最適化パラダイムは、動的環境におけるオンライン学習とコンテキスト最適化を橋渡しする。
これまでの研究では、下流の意思決定からのフィードバックを用いて予測器の逐次更新を調査し、完全な情報設定における後悔を最小限に抑えている。
しかし、既存のアプローチは主に頻繁であり、勾配に基づく戦略に大きく依存し、漸近的な保証にもかかわらず実際に高いばらつきをもたらす可能性のある決定論的予測器を採用する。
この研究は、私たちの知る限り、最初のベイジアンオンラインコンテキスト最適化フレームワークを紹介します。
PAC-Bayes理論と一般ベイズ的更新原理に基づいて、我々のフレームワークはGibs後続のモンテカルロサンプリング器による勾配への依存を排除し、非微分不可能な問題に対処するために$\mathcal{O}(\sqrt{T})$ regretを達成する。
理論的発展と数値実験は、我々の主張を裏付けるものである。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Discounted Adaptive Online Learning: Towards Better Regularization [5.5899168074961265]
敵対的非定常環境におけるオンライン学習について検討する。
適応的アルゴリズム(例:Optimal)を提案し,適応的でないベースラインを広く改良する。
また、(Gibbs and Candes, 2021)スタイルのオンライン共形予測問題についても検討する。
論文 参考訳(メタデータ) (2024-02-05T04:29:39Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Improving Generalization of Complex Models under Unbounded Loss Using PAC-Bayes Bounds [10.94126149188336]
PAC-Bayes学習理論は、テストエラーの厳密な上限を確立することに重点を置いている。
PAC-Bayesトレーニングと呼ばれる最近提案されたトレーニング手順は、これらの境界を最小化するためにモデルを更新する。
このアプローチは理論的に健全であり、実際は、経験的リスク最小化(ERM)によって得られたものほど、テストエラーを達成していない。
PAC-Bayes トレーニングアルゴリズムを導入し,性能向上と事前チューニングへの依存度低減を実現した。
論文 参考訳(メタデータ) (2023-05-30T17:31:25Z) - AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-01-18T03:13:19Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。