論文の概要: The Warmup Dilemma: How Learning Rate Strategies Impact Speech-to-Text Model Convergence
- arxiv url: http://arxiv.org/abs/2505.23420v1
- Date: Thu, 29 May 2025 13:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.863806
- Title: The Warmup Dilemma: How Learning Rate Strategies Impact Speech-to-Text Model Convergence
- Title(参考訳): Warmup Dilemma:学習率戦略が音声からテキストへのモデル収束に与える影響
- Authors: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri,
- Abstract要約: 大規模モデルのトレーニングでは、リソース要件だけでなく、収束の観点からも課題が提示される。
OWSMは、学習率の二重線形ウォームアップを設計し、第1フェーズで非常に小さな値に増やし、第2フェーズで高い値に更新した。
このギャップを埋めて、i)大規模S2Tトレーニングでは、サブ指数LRウォームアップが要求され、i)ウォームアップフェーズにおけるより高いLRが初期収束を加速するが、最終的な性能は向上しないことを示す。
- 参考スコア(独自算出の注目度): 27.27404080214069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large-scale models presents challenges not only in terms of resource requirements but also in terms of their convergence. For this reason, the learning rate (LR) is often decreased when the size of a model is increased. Such a simple solution is not enough in the case of speech-to-text (S2T) trainings, where evolved and more complex variants of the Transformer architecture -- e.g., Conformer or Branchformer -- are used in light of their better performance. As a workaround, OWSM designed a double linear warmup of the LR, increasing it to a very small value in the first phase before updating it to a higher value in the second phase. While this solution worked well in practice, it was not compared with alternative solutions, nor was the impact on the final performance of different LR warmup schedules studied. This paper fills this gap, revealing that i) large-scale S2T trainings demand a sub-exponential LR warmup, and ii) a higher LR in the warmup phase accelerates initial convergence, but it does not boost final performance.
- Abstract(参考訳): 大規模モデルのトレーニングでは、リソース要件だけでなく、収束の観点からも課題が提示される。
このため、モデルのサイズが大きくなると学習率(LR)が低下することが多い。
このような単純なソリューションは、Transformerアーキテクチャ(例えば、ConformerやBranchformerなど)の進化し、より複雑なバリエーションが、より優れたパフォーマンスのために使用される、スピーチ・トゥ・テキスト(S2T)トレーニングでは不十分である。
回避策としてOWSMはLRの二重線形ウォームアップを設計し、第1フェーズで非常に小さな値に増やし、第2フェーズでより高い値に更新した。
このソリューションは実際はうまく動作したが、代替ソリューションとは比較されず、また異なるLRウォームアップスケジュールの最終的な性能にも影響しなかった。
この論文はこのギャップを埋め、それを明らかにします
一 大規模S2T訓練は、亜指数LRウォームアップを要求し、
二 ウォームアップフェーズにおける高いLRは、初期収束を加速させるが、最終性能を向上しない。
関連論文リスト
- Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - From Logistic Regression to the Perceptron Algorithm: Exploring Gradient Descent with Large Step Sizes [57.93371273485736]
分離可能なデータセットによる分類問題に焦点をあてる。
近年の研究では、LR+GDは任意のステップサイズで解を見つけることができる。
論文 参考訳(メタデータ) (2024-12-11T14:43:39Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。