Fugu-MT 論文翻訳(概要): PAC-Bayes Meets Online Contextual Optimization

論文の概要: PAC-Bayes Meets Online Contextual Optimization

arxiv url: http://arxiv.org/abs/2511.20413v1
Date: Tue, 25 Nov 2025 15:37:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.531232
Title: PAC-Bayes Meets Online Contextual Optimization
Title（参考訳）: PAC-Bayesがオンラインコンテキスト最適化をローンチ
Authors: Zhuojun Xie, Adam Abdin, Yiping Fang,
Abstract要約: この作業は、私たちの知る限り、最初のオンラインコンテキスト最適化フレームワークを紹介します。 PAC-Bayes理論と一般ベイズ的更新原理に基づいて、我々のフレームワークはGibs後部を通した有界および混合可能な損失に対して$mathcalO(sqrtT)$ regretを達成する。
参考スコア（独自算出の注目度）: 4.004966432215451
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The predict-then-optimize paradigm bridges online learning and contextual optimization in dynamic environments. Previous works have investigated the sequential updating of predictors using feedback from downstream decisions to minimize regret in the full-information settings. However, existing approaches are predominantly frequentist, rely heavily on gradient-based strategies, and employ deterministic predictors that could yield high variance in practice despite their asymptotic guarantees. This work introduces, to the best of our knowledge, the first Bayesian online contextual optimization framework. Grounded in PAC-Bayes theory and general Bayesian updating principles, our framework achieves $\mathcal{O}(\sqrt{T})$ regret for bounded and mixable losses via a Gibbs posterior, eliminates the dependence on gradients through sequential Monte Carlo samplers, and thereby accommodates nondifferentiable problems. Theoretical developments and numerical experiments substantiate our claims.
Abstract（参考訳）: 予測テーマ最適化パラダイムは、動的環境におけるオンライン学習とコンテキスト最適化を橋渡しする。これまでの研究では、下流の意思決定からのフィードバックを用いて予測器の逐次更新を調査し、完全な情報設定における後悔を最小限に抑えている。しかし、既存のアプローチは主に頻繁であり、勾配に基づく戦略に大きく依存し、漸近的な保証にもかかわらず実際に高いばらつきをもたらす可能性のある決定論的予測器を採用する。この研究は、私たちの知る限り、最初のベイジアンオンラインコンテキスト最適化フレームワークを紹介します。 PAC-Bayes理論と一般ベイズ的更新原理に基づいて、我々のフレームワークはGibs後続のモンテカルロサンプリング器による勾配への依存を排除し、非微分不可能な問題に対処するために$\mathcal{O}(\sqrt{T})$ regretを達成する。理論的発展と数値実験は、我々の主張を裏付けるものである。

関連論文リスト

Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文参考訳（メタデータ） (2026-01-13T10:46:06Z)
Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文参考訳（メタデータ） (2026-01-09T15:44:49Z)
In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文参考訳（メタデータ） (2026-01-06T13:41:31Z)
On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文参考訳（メタデータ） (2025-12-04T08:21:33Z)
Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: Robust Performance Without Small (Sub)Gradients [16.39606116102731]
適応型ニューラルネットワークを提供するPolyakの消滅は、勾配降下(SGD)にとって有望な選択であることが証明された。ディープネットワークに関する総合的な実験は、タイトな凸ネットワーク理論を腐食させる。本研究では、強い仮定を必要とせず、非滑らかな最適化に対して厳密な収束保証を提供する。
論文参考訳（メタデータ） (2025-12-02T02:24:32Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Discounted Adaptive Online Learning: Towards Better Regularization [5.5899168074961265]
敵対的非定常環境におけるオンライン学習について検討する。適応的アルゴリズム(例:Optimal)を提案し,適応的でないベースラインを広く改良する。また、(Gibbs and Candes, 2021)スタイルのオンライン共形予測問題についても検討する。
論文参考訳（メタデータ） (2024-02-05T04:29:39Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Improving Generalization of Complex Models under Unbounded Loss Using PAC-Bayes Bounds [10.94126149188336]
PAC-Bayes学習理論は、テストエラーの厳密な上限を確立することに重点を置いている。 PAC-Bayesトレーニングと呼ばれる最近提案されたトレーニング手順は、これらの境界を最小化するためにモデルを更新する。このアプローチは理論的に健全であり、実際は、経験的リスク最小化(ERM)によって得られたものほど、テストエラーを達成していない。 PAC-Bayes トレーニングアルゴリズムを導入し,性能向上と事前チューニングへの依存度低減を実現した。
論文参考訳（メタデータ） (2023-05-30T17:31:25Z)
AdaTerm: Adaptive T-Distribution Estimated Robust Moments for Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-01-18T03:13:19Z)
Beyond variance reduction: Understanding the true impact of baselines on policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文参考訳（メタデータ） (2020-08-31T17:52:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。