論文の概要: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
- arxiv url: http://arxiv.org/abs/2505.24452v2
- Date: Tue, 10 Jun 2025 13:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 19:51:30.210792
- Title: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
- Title(参考訳): ステップサイズ:予算編成訓練のための統合学習率スケジュール
- Authors: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin,
- Abstract要約: 予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。
学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎をほとんど欠いている。
本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
- 参考スコア(独自算出の注目度): 43.52874155421866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets. While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations. In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient. In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets. First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations. From this framework, we derive the UBA schedule, controlled by a single hyper-parameter \varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between \varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of \varphi. We offer practical guidelines for its selection via theoretical analysis and empirical results. Extensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
- Abstract(参考訳): 計算コストの増大と限られたリソースの制限は、所定の反復予算内で最適な学習を実現することを目的とした予算設定トレーニングの重要な必要性を浮き彫りにする。
学習率のスケジュールは、特に予算設定シナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に管理するが、その設計は概ねヒューリスティックであり、理論的な基礎が欠如している。
さらに、最適な学習率スケジュールには広範囲な試行錯誤選択が必要であるため、トレーニングプロセスは非効率である。
本研究では,様々な制約付きトレーニング予算の下での多種多様なアーキテクチャやタスクの共通使用スケジュールを一貫して上回る,理論的に基礎付けられた学習率スケジュールであるUBA(Unified Budget-Aware)スケジュールを提案する。
まず、ランドスケープ曲率の変動に対する堅牢性を明確に考慮した、新しいトレーニング予算対応最適化フレームワークを構築することにより、ギャップを埋める。
このフレームワークから、単一ハイパーパラメータ \varphi で制御されるUBAスケジュールを導出し、柔軟性と単純さのトレードオフを提供し、ネットワークごとの数値最適化の必要性をなくす。
さらに, 条件数と<varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi
さらに、異なる値の \varphi に対する収束性を証明する。
理論的解析と経験的結果を通じて,その選択に関する実践的ガイドラインを提供する。
UBAはネットワークアーキテクチャ(例えば、ResNet、OLMo)とスケールにまたがって、さまざまなトレーニングイテレーション予算の下で、さまざまなビジョンや言語タスクにまたがる一般的なスケジュールを一貫して上回っている。
関連論文リスト
- Optimizing Anytime Reasoning via Budget Relative Policy Optimization [38.57672572913099]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。
この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - Robustifying and Boosting Training-Free Neural Architecture Search [49.828875134088904]
本稿では,多種多様なタスクにおいて,頑健で一貫したパフォーマンスの指標を開発するために,トレーニング不要なNAS (RoBoT) アルゴリズムを提案する。
注目すべきは、我々のRoBoTの期待性能が理論的に保証され、既存のトレーニングフリーNASよりも改善されることだ。
論文 参考訳(メタデータ) (2024-03-12T12:24:11Z) - Efficient Training of Multi-task Neural Solver for Combinatorial Optimization [23.694457372640912]
本稿では,統合型マルチタスクニューラルソルバを実現するための,汎用的で効率的なトレーニングパラダイムを提案する。
本手法は, 制約付きトレーニング予算の範囲内であっても, 全体的な性能を著しく向上させる。
また,本手法は単一タスク学習やマルチタスク学習と比較して最高の結果を得た。
論文 参考訳(メタデータ) (2023-05-10T14:20:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform
Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。
予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。
その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文 参考訳(メタデータ) (2021-08-18T07:45:21Z) - REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。
REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文 参考訳(メタデータ) (2021-07-09T04:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。