論文の概要: Partially Lazy Gradient Descent for Smoothed Online Learning
- arxiv url: http://arxiv.org/abs/2601.15984v1
- Date: Thu, 22 Jan 2026 14:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.618559
- Title: Partially Lazy Gradient Descent for Smoothed Online Learning
- Title(参考訳): Smoothed Online Learningのための部分遅延グラディエントDescent
- Authors: Naram Mhaisen, George Iosifidis,
- Abstract要約: $k$-lazyGDは、greedy Online Gradient Descent(OGD)とlazy GD/Dual-averaging($k=T$)のギャップを埋める
このスペクトルをSmoothed Online Convex Optimization (SOCO) で解析し、学習者が打つコストと運動コストの両方を発生させる。
- 参考スコア(独自算出の注目度): 8.708728702853966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $k$-lazyGD, an online learning algorithm that bridges the gap between greedy Online Gradient Descent (OGD, for $k=1$) and lazy GD/dual-averaging (for $k=T$), creating a spectrum between reactive and stable updates. We analyze this spectrum in Smoothed Online Convex Optimization (SOCO), where the learner incurs both hitting and movement costs. Our main contribution is establishing that laziness is possible without sacrificing hitting performance: we prove that $k$-lazyGD achieves the optimal dynamic regret $\mathcal{O}(\sqrt{(P_T+1)T})$ for any laziness slack $k$ up to $Θ(\sqrt{T/P_T})$, where $P_T$ is the comparator path length. This result formally connects the allowable laziness to the comparator's shifts, showing that $k$-lazyGD can retain the inherently small movements of lazy methods without compromising tracking ability. We base our analysis on the Follow the Regularized Leader (FTRL) framework, and derive a matching lower bound. Since the slack depends on $P_T$, an ensemble of learners with various slacks is used, yielding a method that is provably stable when it can be, and agile when it must be.
- Abstract(参考訳): 私たちは、greedy Online Gradient Descent(OGD、$k=1$)とlazy GD/dual-averaging($k=T$)のギャップを埋めるオンライン学習アルゴリズムである$k$-lazyGDを紹介します。
このスペクトルをSmoothed Online Convex Optimization (SOCO) で解析し、学習者が打つコストと運動コストの両方を発生させる。
k$-lazyGDが最適な動的後悔を達成できることを証明します $\mathcal{O}(\sqrt{(P_T+1)T})$ for any laziness slack $k$ up to $ (\sqrt{T/P_T})$, ここで$P_T$はコンパレータパス長です。
この結果はコンパレータのシフトに許容される遅延性を正式に結合し、$k$-lazyGDはトラッキング能力を損なうことなく遅延メソッドの本質的に小さな動きを維持できることを示した。
我々は、FTRL(Follow the Regularized Leader)フレームワークに基づいて分析を行い、一致した下位境界を導出します。
slackは$P_T$に依存するため、様々なスラックスを持つ学習者のアンサンブルが使用され、可能であれば確実に安定し、必要であればアジャイルになる。
関連論文リスト
- Complexity of Classical Acceleration for $\ell_1$-Regularized PageRank [14.919427330415608]
FISTAは1/$ローカリティスケーリングを保ちながら$$への依存を改善することができることを示す。
我々はFISTAをわずかに過正規化された目的に基づいて解析し、チェック可能な閉じ込め条件下では、全ての刺激活性化が境界集合内に存在することを示す。
これにより、加速された$(sqrt)-1log(/varepsilon)$項と境界オーバーヘッド$sqrtvol(mathcalB)/(3/2)$からなるバウンダリが得られる。
論文 参考訳(メタデータ) (2026-02-24T17:35:46Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Online Inverse Linear Optimization: Efficient Logarithmic-Regret Algorithm, Robustness to Suboptimality, and Lower Bound [25.50155563108198]
ラウンド単位の複雑さが$T$に依存しない最初の対数-回帰法を提案する。
我々の方法は極めて単純であり、オンラインニュートンステップ(ONS)を適切なexp-concave損失関数に適用する。
また、$Omega(n)$ の下限を示し、$O(nln T)$ 境界が $O(ln T)$ 係数まで固であることを示す。
論文 参考訳(メタデータ) (2025-01-24T09:19:15Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Function Value Learning: Adaptive Learning Rates Based on the Polyak
Stepsize and Function Splitting in ERM [6.542289202349586]
我々は、経験的リスク最小化(experiical risk minimization)としても知られる有限項和問題に焦点をあてる。
最初に、サンプル損失値を利用する、$textttSPS_+$と呼ばれる理想化された適応メソッドを詳述する。
次に、最適な損失値が徐々に学習される$textttSPS_+$の変種である$textttFUVAL$を開発する。
論文 参考訳(メタデータ) (2023-07-26T22:12:31Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Non-stationary Projection-free Online Learning with Dynamic and Adaptive
Regret Guarantees [36.746745619968024]
本研究では,非定常プロジェクションフリーオンライン学習について検討し,動的後悔と適応的後悔を選択して評価を行った。
我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、既存の$mathcalO(T3/4)$static regretを復元することができる。
本稿では,$tildemathcalO(tau3/4)$ アダプティブリフレッシュバウンドを長さ$tauの任意の間隔で達成するためのプロジェクションフリーな手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:02:10Z) - Online Reinforcement Learning in Markov Decision Process Using Linear
Programming [1.0878040851638]
マルコフ決定過程(MDP)におけるオンライン強化学習について検討した。
我々は,高い確率で$widetildeO(LXsqrtTA)$ regretを実現する,シンプルで効率的なモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-03-31T22:21:41Z) - Adversarial Online Multi-Task Reinforcement Learning [12.421997449847153]
対戦型オンラインマルチタスク強化学習環境について考察する。
K$の各エピソードにおいて、学習者は未知のタスクをM$未知有限ホライゾン MDP モデルの有限集合から与えられる。
学習者の目的は,各課題に対する最適方針に関して,その後悔を一般化することである。
論文 参考訳(メタデータ) (2023-01-11T02:18:26Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Online Convex Optimization with Continuous Switching Constraint [78.25064451417082]
連続的なスイッチング制約を伴うオンライン凸最適化の問題を紹介する。
強い凸関数の場合、後悔境界は$O(log T)$ for $S=Omega(log T)$、$O(minT/exp(S)+S,T)$ for $S=O(log T)$に改善できることを示す。
論文 参考訳(メタデータ) (2021-03-21T11:43:35Z) - Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。
競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文 参考訳(メタデータ) (2021-02-13T14:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。