論文の概要: KnapFormer: An Online Load Balancer for Efficient Diffusion Transformers Training
- arxiv url: http://arxiv.org/abs/2508.06001v1
- Date: Fri, 08 Aug 2025 04:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.075491
- Title: KnapFormer: An Online Load Balancer for Efficient Diffusion Transformers Training
- Title(参考訳): KnapFormer: 効率的な拡散変換器トレーニングのためのオンラインロードバランサ
- Authors: Kai Zhang, Peng Wang, Sai Bi, Jianming Zhang, Yuanjun Xiong,
- Abstract要約: 我々は、Diffusion Transformer (DiT) の分散トレーニングにおけるワークロード分散とシーケンス並列性を組み合わせたフレームワークであるKnapFormerを提案する。
KnapFormerは、列の並列性とランク間の重要なトークンの不均衡に対処する必要性の間に強いシナジーが存在するという洞察に基づいている。
ストラグラー効果を排除し、2倍から3倍のスピードアップを実現し、FLUXのような最先端の拡散モデルを混合解像度と画像-ビデオの関節データコーパスでトレーニングする。
- 参考スコア(独自算出の注目度): 25.11814960606976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present KnapFormer, an efficient and versatile framework to combine workload balancing and sequence parallelism in distributed training of Diffusion Transformers (DiT). KnapFormer builds on the insight that strong synergy exists between sequence parallelism and the need to address the significant token imbalance across ranks. This imbalance arises from variable-length text inputs and varying visual token counts in mixed-resolution and image-video joint training. KnapFormer redistributes tokens by first gathering sequence length metadata across all ranks in a balancing group and solving a global knapsack problem. The solver aims to minimize the variances of total workload per-GPU, while accounting for the effect of sequence parallelism. By integrating DeepSpeed-Ulysees-based sequence parallelism in the load-balancing decision process and utilizing a simple semi-empirical workload model, KnapFormers achieves minimal communication overhead and less than 1% workload discrepancy in real-world training workloads with sequence length varying from a few hundred to tens of thousands. It eliminates straggler effects and achieves 2x to 3x speedup when training state-of-the-art diffusion models like FLUX on mixed-resolution and image-video joint data corpora. We open-source the KnapFormer implementation at https://github.com/Kai-46/KnapFormer/
- Abstract(参考訳): 本稿では,Diffusion Transformer (DiT) の分散トレーニングにおける作業負荷分散とシーケンス並列性を組み合わせた,効率的かつ汎用的なフレームワークであるKnapFormerを提案する。
KnapFormerは、列の並列性とランク間の重要なトークンの不均衡に対処する必要性の間に強いシナジーが存在するという洞察に基づいている。
この不均衡は、可変長のテキスト入力と、混合解像度と画像とビデオのジョイントトレーニングにおける様々な視覚トークン数から生じる。
KnapFormerは、バランシンググループ内のすべてのランクにわたるシーケンス長メタデータを最初に収集し、グローバルなknapsack問題の解決によってトークンを再分割する。
このソルバは、シーケンス並列性の影響を考慮しつつ、GPU当たりの総ワークロードの分散を最小化することを目的としている。
負荷分散決定プロセスにDeepSpeed-Ulyseesベースのシーケンス並列処理を統合し、単純な半経験的ワークロードモデルを利用することで、KnapFormersは、数百から数千のシーケンス長の実際のトレーニングワークロードにおいて、最小の通信オーバーヘッドと1%未満のワークロードの不一致を実現する。
ストラグラー効果を排除し、2倍から3倍のスピードアップを実現し、FLUXのような最先端の拡散モデルを混合解像度と画像-ビデオの関節データコーパスでトレーニングする。
我々はKnapFormerの実装をhttps://github.com/Kai-46/KnapFormer/でオープンソース化しました。
関連論文リスト
- Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:50:34Z) - Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文 参考訳(メタデータ) (2024-12-10T20:01:53Z) - FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:16:03Z) - Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
パラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。
しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - DropCompute: simple and more robust distributed synchronous training via
compute variance reduction [30.46681332866494]
本稿では,計算時間の変動により労働者が混在する典型的なシナリオについて考察する。
作業者間のばらつきを低減し,同期学習の堅牢性を向上する,シンプルで効果的な分散化手法を提案する。
論文 参考訳(メタデータ) (2023-06-18T16:55:31Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。