論文の概要: Stress-Aware Learning under KL Drift via Trust-Decayed Mirror Descent
- arxiv url: http://arxiv.org/abs/2510.15222v1
- Date: Fri, 17 Oct 2025 01:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.430579
- Title: Stress-Aware Learning under KL Drift via Trust-Decayed Mirror Descent
- Title(参考訳): KLドリフト下でのストレス認識学習
- Authors: Gabriel Nixon Raj,
- Abstract要約: エントロピー規則化された信頼デカイは、信頼の更新とミラー・ディフレッシブな決定の両方にストレス対応の指数関数的傾きを注入する。
Trust-decayは1スウィッチあたり$O(1)$、ストレスのない更新は$Omega(1)$tailsとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study sequential decision-making under distribution drift. We propose entropy-regularized trust-decay, which injects stress-aware exponential tilting into both belief updates and mirror-descent decisions. On the simplex, a Fenchel-dual equivalence shows that belief tilt and decision tilt coincide. We formalize robustness via fragility (worst-case excess risk in a KL ball), belief bandwidth (radius sustaining a target excess), and a decision-space Fragility Index (drift tolerated at $O(\sqrt{T})$ regret). We prove high-probability sensitivity bounds and establish dynamic-regret guarantees of $\tilde{O}(\sqrt{T})$ under KL-drift path length $S_T = \sum_{t\ge2}\sqrt{{\rm KL}(D_t|D_{t-1})/2}$. In particular, trust-decay achieves $O(1)$ per-switch regret, while stress-free updates incur $\Omega(1)$ tails. A parameter-free hedge adapts the tilt to unknown drift, whereas persistent over-tilting yields an $\Omega(\lambda^2 T)$ stationary penalty. We further obtain calibrated-stress bounds and extensions to second-order updates, bandit feedback, outliers, stress variation, distributed optimization, and plug-in KL-drift estimation. The framework unifies dynamic-regret analysis, distributionally robust objectives, and KL-regularized control within a single stress-adaptive update.
- Abstract(参考訳): 分布流下における逐次的意思決定について検討する。
エントロピー規則化された信頼デカイは,信頼の更新とミラー・ディフレッシブな決定の両方にストレスに敏感な傾きを注入する。
単純な点において、フェンシェル双対同値は、信念の傾きと決定の傾きが一致することを示す。
我々は、不安定性(KLボールのウォルストケース過剰リスク)、信念帯域幅(目標超過を維持する半径)、決定空間脆弱度指数(O(\sqrt{T})$後悔)による堅牢性を定式化する。
高確率感度境界を証明し、KL-ドリフトパス長$S_T = \sum_{t\ge2}\sqrt{{\rm KL}(D_t|D_{t-1})/2}$で$\tilde{O}(\sqrt{T})$の動的回帰保証を確立する。
特に、Trust-decayは、Switch当たり$O(1)$の後悔を達成する一方、ストレスのない更新は、$\Omega(1)$tailsを発生させる。
パラメータフリーのヘッジは傾きを未知のドリフトに適応させるが、持続的なオーバーチルトは$\Omega(\lambda^2T)$固定ペナルティをもたらす。
さらに, 2次更新, 帯域フィードバック, アウトレーヤ, ストレス変動, 分散最適化, プラグインKL-drift推定に対するキャリブレーション・ストレス境界と拡張を求める。
このフレームワークは、動的回帰分析、分散ロバストな目的、単一のストレス適応更新におけるKL正規化制御を統一する。
関連論文リスト
- Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Regret Distribution in Stochastic Bandits: Optimal Trade-off between
Expectation and Tail Risk [22.843623578307707]
我々は,多武装バンディット問題における後悔分布の予測とテールリスクのトレードオフについて検討した。
予測された後悔の順序が、最悪のケースとインスタンスに依存したシナリオの両方において、後悔の尾確率の減衰率にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-04-10T01:00:18Z) - Online Convex Optimization with Stochastic Constraints: Zero Constraint
Violation and Bandit Feedback [0.0]
本稿では,O(sqrtT)$期待後悔とゼロ制約違反を保証できるドリフト・プラス・ペナルティアルゴリズムの変種を提案する。
我々のアルゴリズムは、バニラドリフト・プラス・ペナルティ法とは対照的に、時間地平線の長さが$T$である。
論文 参考訳(メタデータ) (2023-01-26T18:04:26Z) - Understanding Gradient Descent on Edge of Stability in Deep Learning [32.03036040349019]
本稿では,EoS相における暗黙的正則化の新たなメカニズムを数学的に解析し,非滑らかな損失景観によるGD更新が,最小損失の多様体上の決定論的流れに沿って進化することを示した。
以上の理論的結果は実験によって裏付けられている。
論文 参考訳(メタデータ) (2022-05-19T17:57:01Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-13T23:50:01Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。