論文の概要: Agile Online Model Selection: Resolving Adaptation Lag via Safeguarded Large Learning Rates
- arxiv url: http://arxiv.org/abs/2605.26919v2
- Date: Mon, 01 Jun 2026 03:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.534794
- Title: Agile Online Model Selection: Resolving Adaptation Lag via Safeguarded Large Learning Rates
- Title(参考訳): アジャイルオンラインモデル選択 - 大規模学習率の保護を通じて適応ラグを解決する
- Authors: Kei Takemura, Ryuta Matsuno, Keita Sakuma,
- Abstract要約: 本稿では,保護された大規模学習率を最大$(T) まで活用する,新しい楽観的なオンラインミラー降下法を提案する。
私たちの重要な技術的貢献は、不安定な更新を動的に監視し、過度の後悔を招く学習率を排除する、ポストホックペナルティメカニズムです。
3つの合成および11の多様な実世界のデータセットに対する実証的な評価は、我々のアプローチが数百ラウンドから数ラウンドまでの適応ラグを減少させることを示している。
- 参考スコア(独自算出の注目度): 9.463718838347955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Maintaining predictive accuracy in non-stationary environments requires online model selection to adapt autonomously to unknown distribution shifts. However, existing tuning-free algorithms face a fundamental trade-off between robustness and agility. Specifically, to ensure dynamic regret bounds, they must restrict learning rates to small constants (e.g., $O(1)$). This restriction inevitably causes significant adaptation lag during abrupt changes. To resolve this, we propose a novel optimistic online mirror descent that utilizes safeguarded large learning rates up to $Θ(T)$, where $T$ is the number of rounds. Our key technical contribution is a post-hoc penalty mechanism that dynamically monitors unstable updates and excludes learning rates incurring excessive regret, eliminating the need for restrictive a priori constraints. We show that the cumulative penalty remains $O(\log T)$, allowing our algorithm to match near-optimal worst-case guarantees while achieving superior rates in benign cases. Empirical evaluations on three synthetic and eleven diverse real-world datasets demonstrate that our approach reduces the adaptation lag from hundreds of rounds to a few rounds, consistently outperforming tuning-free baselines.
- Abstract(参考訳): 非定常環境における予測精度を維持するには、未知の分布シフトに自律的に適応するためにオンラインモデル選択が必要である。
しかし、既存のチューニング不要のアルゴリズムは、堅牢性とアジリティの基本的なトレードオフに直面します。
具体的には、動的後悔境界を保証するためには、学習速度を小さな定数(例えば、$O(1)$)に制限する必要がある。
この制限は、急激な変化の間、必然的に大きな適応遅延を引き起こす。
これを解決するために,保護された大規模学習率を最大$$(T)$,ラウンド数として$T$まで活用する,楽観的なオンラインミラー降下法を提案する。
私たちの重要な技術的貢献は、不安定な更新を動的に監視し、過剰な後悔を招く学習率を排除し、事前制約を制限する必要をなくす、ポストホックペナルティメカニズムです。
累積的なペナルティは$O(\log T)$のままであり、アルゴリズムは最適に近い最悪の保証と一致し、良質なケースでは優れたレートを達成することができる。
3つの合成および11の多様な実世界のデータセットに対する実証的な評価は、我々のアプローチが数百ラウンドから数ラウンドへの適応ラグを減らし、チューニング不要のベースラインを一貫して上回っていることを示している。
関連論文リスト
- Near-Optimal Sample Complexity for Online Constrained MDPs [10.479589616736193]
CMDP(Constrained Markov Decision Processs)は、性能を最適化しながら安全性の制約を強制するために一般的に用いられる。
既存の手法は、しばしば重大な安全違反に悩まされるか、あるいは準最適ポリシーを生成するために高いサンプルの複雑さを必要とする。
本稿では,後悔と制約違反のバランスをとるモデルベース原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-16T05:16:13Z) - Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability [14.00844847268286]
早期のDeep Neural Networksは、中間層での予測を可能にすることで、適応推論を可能にする。
我々のフレームワークは、フルモデルのパフォーマンスと比較して、パフォーマンス低下(2%)を最小限に抑えながら、スピードアップ(1.70-2.10x)が一貫した改善を示している。
論文 参考訳(メタデータ) (2025-09-28T06:05:24Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Online Learning of Whittle Indices for Restless Bandits with Non-Stationary Transition Kernels [24.314013749328677]
本研究では,レスレスマルチアームバンド (RMAB) における資源配分について,未知および非定常力学の下で検討する。
我々は,時変カーネルに適応しながら計算効率を保ちながら,スライディング・ウィンドウ・オンラインウィトル (SW-Whittle) ポリシーを提案する。
我々のアルゴリズムは一貫してベースラインを上回り、様々な非定常環境において最も低い累積的後悔を達成している。
論文 参考訳(メタデータ) (2025-06-22T22:04:52Z) - Stabilizing Linear Passive-Aggressive Online Learning with Weighted Reservoir Sampling [46.01254613933967]
オンライン学習手法は、高次元ストリーミングデータ、アウトオブコア処理、その他のスループットに敏感なアプリケーションに依然として有効である。
このようなアルゴリズムの多くは、その収束の鍵として個々のエラーへの高速な適応に依存している。
このようなアルゴリズムは理論上の後悔は少ないが、現実の展開では個々の外れ値に敏感であり、アルゴリズムが過度に修正される可能性がある。
論文 参考訳(メタデータ) (2024-10-31T03:35:48Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive
Non-Stationary Dueling Bandits [20.128001589147512]
本研究では,非定常デュエル帯域の問題について検討し,この問題に対する適応的動的後悔アルゴリズムを提案する。
ほぼ最適の $tildeO(sqrtStexttCW T)$ dynamic regret bound を示します。
論文 参考訳(メタデータ) (2022-10-25T20:26:02Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。