論文の概要: SlimPack: Fine-Grained Asymmetric Packing for Balanced and Efficient Variable-Length LLM Training
- arxiv url: http://arxiv.org/abs/2509.26246v1
- Date: Tue, 30 Sep 2025 13:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.148724
- Title: SlimPack: Fine-Grained Asymmetric Packing for Balanced and Efficient Variable-Length LLM Training
- Title(参考訳): SlimPack: バランスと効率のよい可変長LDMトレーニングのための細粒非対称パッケージ
- Authors: Yuliang Liu, Guohao Wu, Shenglong Zhang, Wei Zhang, Qianchao Zhu, Zhouyang Li, Chenyu Wang,
- Abstract要約: SlimPackは、サンプルをきめ細かなスライスに分解することで、データパッキングとスケジューリングを根本的に再考するフレームワークです。
SlimPackは、大規模な揮発性ワークロードを小さな管理可能なユニットのストリームに変換することで、重要なメモリと通信ボトルネックを軽減する。
非対称分割は、前方と後方の異なる要求に一意に最適化されたバランスの取れたスケジューリングユニットを組み立てる。
- 参考スコア(独自算出の注目度): 22.230495941666096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficient distributed training of Large Language Models (LLMs) is severely hampered by the extreme variance in context lengths. This data heterogeneity, amplified by conventional packing strategies and asymmetric forward-backward costs, leads to critical inefficiencies such as cascading workload imbalances and severe hardware underutilization. Existing solutions attempt to mitigate these challenges, but often at the expense of memory or communication efficiency. To address these challenges, we introduce SlimPack, a framework that fundamentally rethinks data packing and scheduling by decomposing samples into fine-grained slices. This slice-level decomposition immediately mitigates critical memory and communication bottlenecks by transforming large, volatile workloads into a stream of smaller, manageable units. This flexibility is then harnessed for our core innovation, Asymmetric Partitioning, which assembles balanced scheduling units uniquely optimized for the different demands of the forward and backward passes. Orchestrated by a two-phase solver and a high-fidelity simulator, SlimPack holistically resolves imbalances across all parallel dimensions. Extensive experiments demonstrate that SlimPack achieves up to a $2.8\times$ training throughput improvement over baselines, breaking the conventional trade-off by delivering both superior balance and high resource efficiency.
- Abstract(参考訳): LLM(Large Language Models)の効率的な分散トレーニングは、文脈長の極端な分散によって著しく妨げられる。
このデータの不均一性は、従来のパッケージング戦略と非対称な前向きコストによって増幅され、カスケードワークロードの不均衡やハードウエアの不使用といった重要な非効率性をもたらす。
既存のソリューションはこれらの課題を緩和しようとするが、しばしばメモリや通信効率を犠牲にしている。
これらの課題に対処するために、サンプルをきめ細かなスライスに分解することで、データパッキングとスケジューリングを根本的に再考するフレームワークであるSlimPackを紹介します。
このスライスレベルの分解は、大規模な揮発性ワークロードを小さな管理可能なユニットのストリームに変換することで、重要なメモリと通信ボトルネックを即座に軽減します。
この柔軟性は、フォワードパスとバックパスの異なる要求に一意に最適化されたバランスの取れたスケジューリングユニットを組み立てる、私たちのコアイノベーションである非対称パーティショニングに活用されます。
2相ソルバと高忠実度シミュレータによって構成されたSlimPackは、すべての平行次元における不均衡を均等に解決する。
大規模な実験により、SlimPackは、ベースラインよりもトレーニングスループットの向上を最大2.8\timesで達成し、優れたバランスと高いリソース効率を提供することで、従来のトレードオフを破ることを示した。
関連論文リスト
- EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Cutting Slack: Quantum Optimization with Slack-Free Methods for Combinatorial Benchmarks [4.266376725904727]
制約処理は、量子最適化における重要なボトルネックである。
量子シミュレータやハードウェア上での制約問題を解くために,ラグランジアンに基づく一連の最適化手法について検討する。
この結果は,QUBOのペナライゼーションに代わるスケーラブルな代替手段として,ラグランジアン定式化の柔軟性を強調した。
論文 参考訳(メタデータ) (2025-07-16T11:39:47Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Balancing LoRA Performance and Efficiency with Simple Shard Sharing [8.827921242078883]
textbfOptimal textbfShard textbfIntegration in textbfLoRAは、単純なシャード共有機構を通じて、このトレードオフに対処する新しいPEFTアプローチである。
Fossilsは、標準的なLoRAと、その顕著な変種を、モデルパフォーマンスメトリクスと計算効率の両方で大幅に上回っている。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Smoothness-Aware Quantization Techniques [0.2578242050187029]
我々は、$n$ブロックによるブロック量子化がシングルブロック量子化より優れていることを示す。
また、スムーズ性を考慮した量子化戦略が既存の量子化方式より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T11:30:05Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。