論文の概要: DCP: Addressing Input Dynamism In Long-Context Training via Dynamic Context Parallelism
- arxiv url: http://arxiv.org/abs/2510.10620v1
- Date: Sun, 12 Oct 2025 14:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.035108
- Title: DCP: Addressing Input Dynamism In Long-Context Training via Dynamic Context Parallelism
- Title(参考訳): DCP:動的文脈並列性による長期学習における入力ダイナミズムへの対処
- Authors: Chenyu Jiang, Zhenkun Cai, Ye Tian, Zhen Jia, Yida Wang, Chuan Wu,
- Abstract要約: DCPは動的コンテキスト並列トレーニングフレームワークであり、データと計算の両方のきめ細かいブロックワイドパーティショニングを導入している。
DCPは因果マスクで1.19x2.45x、スパースアテンションパターンで2.15x3.77xの注意を加速する。
- 参考スコア(独自算出の注目度): 14.218532777707091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context parallelism has emerged as a key technique to support long-context training, a growing trend in generative AI for modern large models. However, existing context parallel methods rely on static parallelization configurations that overlook the dynamic nature of training data, specifically, the variability in sequence lengths and token relationships (i.e., attention patterns) across samples. As a result, these methods often suffer from unnecessary communication overhead and imbalanced computation. In this paper, we present DCP, a dynamic context parallel training framework that introduces fine-grained blockwise partitioning of both data and computation. By enabling flexible mapping of data and computation blocks to devices, DCP can adapt to varying sequence characteristics, effectively reducing communication and improving memory and computation balance. Micro-benchmarks demonstrate that DCP accelerates attention by 1.19x~2.45x under causal masks and 2.15x~3.77x under sparse attention patterns. Additionally, we observe up to 0.94x~1.16x end-to-end training speed-up for causal masks, and 1.00x~1.46x for sparse masks.
- Abstract(参考訳): コンテキスト並列性(Context parallelism)は、現代的な大規模モデルのための生成AIのトレンドである、長期コンテキストトレーニングをサポートする重要なテクニックとして登場した。
しかし、既存のコンテクスト並列手法は、トレーニングデータの動的性質、具体的にはシーケンス長の変動性と、サンプル間のトークン関係(注意パターン)を無視する静的並列化構成に依存している。
その結果、これらの手法は不要な通信オーバーヘッドと不均衡な計算に悩まされることが多い。
本稿では,データと計算の双方のきめ細かいブロック分割を導入する動的コンテキスト並列学習フレームワークであるDCPを提案する。
データと計算ブロックをデバイスに柔軟にマッピングすることで、DCPは様々なシーケンス特性に適応し、通信を効果的に削減し、メモリと計算のバランスを改善することができる。
マイクロベンチマークでは、DCPは因果マスクで1.19x~2.45x、スパースアテンションパターンで2.15x~3.77xの注意を加速している。
さらに, 因果マスクは最大0.94x~1.16x, スパースマスクは1.00x~1.46xである。
関連論文リスト
- ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs [22.542224045868117]
ByteScaleは、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的なフレームワークである。
ByteScaleはHybrid Data Parallelism(HDP)をベースにしている。
実験の結果,ByteScaleは最先端のトレーニングシステムよりも最大7.89倍優れていた。
論文 参考訳(メタデータ) (2025-02-28T17:01:03Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - GNNPipe: Scaling Deep GNN Training with Pipelined Model Parallelism [10.723541176359452]
分散グラフニューラルネットワーク(GNN)トレーニングでは,コミュニケーションが重要なボトルネックとなっている。
GNNPipeは、分散フルグラフの深層GNNトレーニングをスケールする新しいアプローチである。
論文 参考訳(メタデータ) (2023-08-19T18:44:14Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。