論文の概要: On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning
- arxiv url: http://arxiv.org/abs/2505.22899v1
- Date: Wed, 28 May 2025 22:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.557287
- Title: On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning
- Title(参考訳): 正規化リーダー追従の動的規則について--ヒストリ・プルーニングによる最適化
- Authors: Naram Mhaisen, George Iosifidis,
- Abstract要約: FTRL(Follow the Regularized Leader)は、オンライン凸最適化(OCO)のためのフレームワークである。
これまでの研究は、動的環境におけるフレームワークの制限を強調してきた。
我々は,FTRLが将来コストの楽観的な構成と過去のコストの慎重な線形化によって,既知の動的後悔境界を回復できることを示す。
- 参考スコア(独自算出の注目度): 10.25772015681554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the Follow the Regularized Leader (FTRL) framework for Online Convex Optimization (OCO) over compact sets, focusing on achieving dynamic regret guarantees. Prior work has highlighted the framework's limitations in dynamic environments due to its tendency to produce "lazy" iterates. However, building on insights showing FTRL's ability to produce "agile" iterates, we show that it can indeed recover known dynamic regret bounds through optimistic composition of future costs and careful linearization of past costs, which can lead to pruning some of them. This new analysis of FTRL against dynamic comparators yields a principled way to interpolate between greedy and agile updates and offers several benefits, including refined control over regret terms, optimism without cyclic dependence, and the application of minimal recursive regularization akin to AdaFTRL. More broadly, we show that it is not the lazy projection style of FTRL that hinders (optimistic) dynamic regret, but the decoupling of the algorithm's state (linearized history) from its iterates, allowing the state to grow arbitrarily. Instead, pruning synchronizes these two when necessary.
- Abstract(参考訳): 我々は,オンライン凸最適化(OCO)のための規則化リーダ(FTRL)フレームワークをコンパクトなセットで再検討し,動的な後悔の保証を達成することに重点を置いている。
これまでの研究は、動的環境におけるフレームワークの制限を強調してきた。
しかし、FTRLが「アジャイル」を生産する能力を示す洞察に基づいて、将来のコストの楽観的な構成と過去のコストの慎重な線形化により、既知の動的後悔境界を実際に回復できることが示され、その一部は刈り取られる可能性がある。
この動的コンパレータに対するFTRLの新しい分析は、欲求とアジャイルの更新を補間する原則的な方法をもたらし、後悔の言葉の洗練された制御、循環依存のない楽観主義、AdaFTRLに似た最小再帰正規化の適用など、いくつかの利点を提供する。
より広義には、(最適)動的後悔を妨げるFTRLの遅延プロジェクションスタイルではなく、アルゴリズムの状態(線形化履歴)をイテレートから切り離すことによって、状態が任意に成長することを示す。
プルーニングは必要に応じてこの2つを同期させる。
関連論文リスト
- The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。
期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。
最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Generalized Implicit Follow-The-Regularized-Leader [15.974402990630402]
一般化された暗黙的なFTRLは、線形化された損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができる。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
論文 参考訳(メタデータ) (2023-05-31T21:39:52Z) - Dynamic Regret for Strongly Adaptive Methods and Optimality of Online
KRR [13.165557713537389]
我々は、強い適応性(SA)アルゴリズムを、動的後悔を制御するための原則的な方法と見なせることを示した。
我々は,オンラインKernel Ridge Regression(KRR)の最小限の最適性を確立する,ある罰則による新たな下限を導出する。
論文 参考訳(メタデータ) (2021-11-22T21:52:47Z) - Delay-Tolerant Constrained OCO with Application to Network Resource
Allocation [44.67787270821051]
マルチスロットフィードバック遅延によるオンライン凸最適化(OCO)を検討します。
エージェントは、時間変動凸損失関数の蓄積を最小限に抑えるために、一連のオンライン決定を行う。
情報フィードバックと意思決定の更新の非同期性に取り組むために,二重正規化による新たな制約ペナルティを用いた遅延耐性制約OCOを提案する。
論文 参考訳(メタデータ) (2021-05-09T19:32:33Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。