論文の概要: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
- arxiv url: http://arxiv.org/abs/2505.24452v1
- Date: Fri, 30 May 2025 10:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.908618
- Title: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
- Title(参考訳): ステップサイズ:予算編成訓練のための統合学習率スケジュール
- Authors: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin,
- Abstract要約: 予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。
学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎が欠如している。
本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
- 参考スコア(独自算出の注目度): 43.52874155421866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter $\varphi$ that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between $\varphi$ and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of $\varphi$.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA \textit{consistently surpasses} the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
- Abstract(参考訳): 計算コストの増大と限られたリソースの増大により、所定の反復予算内で最適な学習を実現するための予算編成訓練の必要性が強調される一方、特に予算編成シナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に管理する学習率スケジュールは、概ねヒューリスティックであり、理論的な基礎が欠如している。さらに、最適な学習率スケジュールは、試行錯誤選択を幅広く必要とし、トレーニングプロセスを効率良くする。本研究では、様々な制約されたトレーニング予算の下で、様々なアーキテクチャやタスクの間で一貫して使用される共通的なスケジュールであるUnified Budget-Aware(UBA)スケジュールを一貫して上回る理論的な基礎的な学習率スケジュールであるUnified Budget-Aware(UBA)スケジュールを提案する。まず、新しいトレーニング予算最適化フレームワークを構築することでギャップを埋める。
さらに、$\varphi$と条件数の間の理論的関係を確立し、我々のアプローチに解釈と正当化を加える。
さらに、$\varphi$ の異なる値に対する収束性を証明する。
UBA \textit{consistently overes} では,ネットワークアーキテクチャ(ResNet,OLMoなど)やスケールにまたがる様々なビジョンや言語タスクに共通して使用されるスケジュールが,異なるトレーニングイテレーション予算の下で適用されていることを示す。
関連論文リスト
- Optimizing Anytime Reasoning via Budget Relative Policy Optimization [38.57672572913099]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。
この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - Robustifying and Boosting Training-Free Neural Architecture Search [49.828875134088904]
本稿では,多種多様なタスクにおいて,頑健で一貫したパフォーマンスの指標を開発するために,トレーニング不要なNAS (RoBoT) アルゴリズムを提案する。
注目すべきは、我々のRoBoTの期待性能が理論的に保証され、既存のトレーニングフリーNASよりも改善されることだ。
論文 参考訳(メタデータ) (2024-03-12T12:24:11Z) - Efficient Training of Multi-task Neural Solver for Combinatorial Optimization [23.694457372640912]
本稿では,統合型マルチタスクニューラルソルバを実現するための,汎用的で効率的なトレーニングパラダイムを提案する。
本手法は, 制約付きトレーニング予算の範囲内であっても, 全体的な性能を著しく向上させる。
また,本手法は単一タスク学習やマルチタスク学習と比較して最高の結果を得た。
論文 参考訳(メタデータ) (2023-05-10T14:20:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform
Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。
予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。
その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文 参考訳(メタデータ) (2021-08-18T07:45:21Z) - REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。
REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文 参考訳(メタデータ) (2021-07-09T04:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。