Fugu-MT 論文翻訳(概要): Stepsize anything: A unified learning rate schedule for budgeted-iteration training

論文の概要: Stepsize anything: A unified learning rate schedule for budgeted-iteration training

arxiv url: http://arxiv.org/abs/2505.24452v2
Date: Tue, 10 Jun 2025 13:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 19:51:30.210792
Title: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
Title（参考訳）: ステップサイズ:予算編成訓練のための統合学習率スケジュール
Authors: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin,
Abstract要約: 予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎をほとんど欠いている。本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
参考スコア（独自算出の注目度）: 43.52874155421866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets. While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations. In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient. In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets. First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations. From this framework, we derive the UBA schedule, controlled by a single hyper-parameter \varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between \varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of \varphi. We offer practical guidelines for its selection via theoretical analysis and empirical results. Extensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
Abstract（参考訳）: 計算コストの増大と限られたリソースの制限は、所定の反復予算内で最適な学習を実現することを目的とした予算設定トレーニングの重要な必要性を浮き彫りにする。学習率のスケジュールは、特に予算設定シナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に管理するが、その設計は概ねヒューリスティックであり、理論的な基礎が欠如している。さらに、最適な学習率スケジュールには広範囲な試行錯誤選択が必要であるため、トレーニングプロセスは非効率である。本研究では,様々な制約付きトレーニング予算の下での多種多様なアーキテクチャやタスクの共通使用スケジュールを一貫して上回る,理論的に基礎付けられた学習率スケジュールであるUBA(Unified Budget-Aware)スケジュールを提案する。まず、ランドスケープ曲率の変動に対する堅牢性を明確に考慮した、新しいトレーニング予算対応最適化フレームワークを構築することにより、ギャップを埋める。このフレームワークから、単一ハイパーパラメータ \varphi で制御されるUBAスケジュールを導出し、柔軟性と単純さのトレードオフを提供し、ネットワークごとの数値最適化の必要性をなくす。さらに, 条件数と<varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi</varphi さらに、異なる値の \varphi に対する収束性を証明する。理論的解析と経験的結果を通じて,その選択に関する実践的ガイドラインを提供する。 UBAはネットワークアーキテクチャ(例えば、ResNet、OLMo)とスケールにまたがって、さまざまなトレーニングイテレーション予算の下で、さまざまなビジョンや言語タスクにまたがる一般的なスケジュールを一貫して上回っている。

関連論文リスト

Optimizing Anytime Reasoning via Budget Relative Policy Optimization [38.57672572913099]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文参考訳（メタデータ） (2025-05-19T17:58:44Z)
Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文参考訳（メタデータ） (2025-05-08T15:01:06Z)
Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文参考訳（メタデータ） (2024-11-12T00:10:34Z)
Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Robustifying and Boosting Training-Free Neural Architecture Search [49.828875134088904]
本稿では,多種多様なタスクにおいて,頑健で一貫したパフォーマンスの指標を開発するために,トレーニング不要なNAS (RoBoT) アルゴリズムを提案する。注目すべきは、我々のRoBoTの期待性能が理論的に保証され、既存のトレーニングフリーNASよりも改善されることだ。
論文参考訳（メタデータ） (2024-03-12T12:24:11Z)
Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-10-13T04:50:40Z)
When Computing Power Network Meets Distributed Machine Learning: An Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文参考訳（メタデータ） (2023-05-22T12:36:52Z)
Efficient Training of Multi-task Neural Solver for Combinatorial Optimization [23.694457372640912]
本稿では,統合型マルチタスクニューラルソルバを実現するための,汎用的で効率的なトレーニングパラダイムを提案する。本手法は, 制約付きトレーニング予算の範囲内であっても, 全体的な性能を著しく向上させる。また,本手法は単一タスク学習やマルチタスク学習と比較して最高の結果を得た。
論文参考訳（メタデータ） (2023-05-10T14:20:34Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文参考訳（メタデータ） (2021-08-18T07:45:21Z)
REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。 REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文参考訳（メタデータ） (2021-07-09T04:17:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。