論文の概要: TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2602.05754v1
- Date: Thu, 05 Feb 2026 15:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.997874
- Title: TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism
- Title(参考訳): Timely Freeze: パイプライン並列化のための適応的パラメータ凍結機構
- Authors: Seonghye Cho, Jaemin Han, Hyunjin Kim, Euisoo Jung, Jae-Gil Lee,
- Abstract要約: 本稿では,パイプラインスケジュールを有向非巡回グラフとしてモデル化し,最適凍結比を求める線形プログラムを解くTimelyFreezeを提案する。
実験の結果、TimelyFreezeはLLaMA-8Bで最大40%のトレーニングスループットを同等の精度で達成している。
- 参考スコア(独自算出の注目度): 9.595296799577499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline parallelism enables training models that exceed single-device memory, but practical throughput remains limited by pipeline bubbles. Although parameter freezing can improve training throughput by adaptively skipping backward computation, existing methods often over-freeze parameters, resulting in unnecessary accuracy degradation. To address this issue, we propose TimelyFreeze, which models the pipeline schedule as a directed acyclic graph and solves a linear program to compute optimal freeze ratios that minimize batch execution time under accuracy constraints. Experiments show that TimelyFreeze achieves up to 40% training throughput improvement on LLaMA-8B with comparable accuracy. Overall, it enables faster large-scale model training without compromising convergence and generalizes across diverse pipeline-parallel settings.
- Abstract(参考訳): パイプライン並列処理は、単一デバイスメモリを超えるトレーニングモデルを可能にするが、実際のスループットはパイプラインバブルによって制限される。
パラメータ凍結は、後方計算を適応的にスキップすることでトレーニングのスループットを向上させることができるが、既存の手法はしばしばパラメータを過度に凍結し、不必要な精度の劣化をもたらす。
この問題に対処するために,パイプラインスケジュールを有向非循環グラフとしてモデル化するTimelyFreezeを提案する。
実験の結果、TimelyFreezeはLLaMA-8Bで最大40%のトレーニングスループットを同等の精度で達成している。
全体として、コンバージェンスを損なうことなく、より高速な大規模モデルトレーニングを可能にし、さまざまなパイプライン並列設定をまたいだ一般化を実現している。
関連論文リスト
- Temporal Pair Consistency for Variance-Reduced Flow Matching [13.328987133593154]
TPC(Temporal Pair Consistency)は、同じ確率経路に沿ってペア化された時間ステップで速度予測を結合する軽量な分散還元原理である。
フローマッチング内で確立されたTPCは、複数の解像度でCIFAR-10とImageNetのサンプル品質と効率を改善する。
論文 参考訳(メタデータ) (2026-02-04T00:05:21Z) - Improving Long-term Autoregressive Spatiotemporal Predictions: A Proof of Concept with Fluid Dynamics [10.71350538032054]
複雑なシステムでは、エラーの蓄積によって長期的な精度が劣化することが多い。
我々はPushForwardフレームワークを提案する。PushForwardフレームワークは、マルチステップ学習を実現しつつ、ワンステップのトレーニングを継続する。
SPFはモデル予測から補足的データセットを構築し、取得戦略を通じて真実と組み合わせる。
論文 参考訳(メタデータ) (2025-08-25T23:51:18Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - ICE-Pruning: An Iterative Cost-Efficient Pruning Pipeline for Deep Neural Networks [5.107302670511175]
ICE-Pruningはディープニューラルネットワーク(DNN)のための反復的なプルーニングパイプラインである
微調整の全体的なコストを削減し、刈り取りに要する時間を著しく短縮する。
ICEプルーニングは、プルーニングを最大9.61倍加速させることができる。
論文 参考訳(メタデータ) (2025-05-12T10:07:23Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。