Fugu-MT 論文翻訳(概要): Stepsize anything: A unified learning rate schedule for budgeted-iteration training

論文の概要: Stepsize anything: A unified learning rate schedule for budgeted-iteration training

arxiv url: http://arxiv.org/abs/2505.24452v1
Date: Fri, 30 May 2025 10:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.908618
Title: Stepsize anything: A unified learning rate schedule for budgeted-iteration training
Title（参考訳）: ステップサイズ:予算編成訓練のための統合学習率スケジュール
Authors: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin,
Abstract要約: 予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎が欠如している。本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
参考スコア（独自算出の注目度）: 43.52874155421866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter $\varphi$ that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between $\varphi$ and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of $\varphi$.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA \textit{consistently surpasses} the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
Abstract（参考訳）: 計算コストの増大と限られたリソースの増大により、所定の反復予算内で最適な学習を実現するための予算編成訓練の必要性が強調される一方、特に予算編成シナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に管理する学習率スケジュールは、概ねヒューリスティックであり、理論的な基礎が欠如している。さらに、最適な学習率スケジュールは、試行錯誤選択を幅広く必要とし、トレーニングプロセスを効率良くする。本研究では、様々な制約されたトレーニング予算の下で、様々なアーキテクチャやタスクの間で一貫して使用される共通的なスケジュールであるUnified Budget-Aware(UBA)スケジュールを一貫して上回る理論的な基礎的な学習率スケジュールであるUnified Budget-Aware(UBA)スケジュールを提案する。まず、新しいトレーニング予算最適化フレームワークを構築することでギャップを埋める。さらに、$\varphi$と条件数の間の理論的関係を確立し、我々のアプローチに解釈と正当化を加える。さらに、$\varphi$ の異なる値に対する収束性を証明する。 UBA \textit{consistently overes} では,ネットワークアーキテクチャ(ResNet,OLMoなど)やスケールにまたがる様々なビジョンや言語タスクに共通して使用されるスケジュールが,異なるトレーニングイテレーション予算の下で適用されていることを示す。

関連論文リスト

Optimizing Anytime Reasoning via Budget Relative Policy Optimization [38.57672572913099]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文参考訳（メタデータ） (2025-05-19T17:58:44Z)
Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文参考訳（メタデータ） (2025-05-08T15:01:06Z)
Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文参考訳（メタデータ） (2024-11-12T00:10:34Z)
Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Robustifying and Boosting Training-Free Neural Architecture Search [49.828875134088904]
本稿では,多種多様なタスクにおいて,頑健で一貫したパフォーマンスの指標を開発するために,トレーニング不要なNAS (RoBoT) アルゴリズムを提案する。注目すべきは、我々のRoBoTの期待性能が理論的に保証され、既存のトレーニングフリーNASよりも改善されることだ。
論文参考訳（メタデータ） (2024-03-12T12:24:11Z)
Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-10-13T04:50:40Z)
When Computing Power Network Meets Distributed Machine Learning: An Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文参考訳（メタデータ） (2023-05-22T12:36:52Z)
Efficient Training of Multi-task Neural Solver for Combinatorial Optimization [23.694457372640912]
本稿では,統合型マルチタスクニューラルソルバを実現するための,汎用的で効率的なトレーニングパラダイムを提案する。本手法は, 制約付きトレーニング予算の範囲内であっても, 全体的な性能を著しく向上させる。また,本手法は単一タスク学習やマルチタスク学習と比較して最高の結果を得た。
論文参考訳（メタデータ） (2023-05-10T14:20:34Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文参考訳（メタデータ） (2021-08-18T07:45:21Z)
REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。 REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文参考訳（メタデータ） (2021-07-09T04:17:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。