論文の概要: ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer
- arxiv url: http://arxiv.org/abs/2511.13198v1
- Date: Mon, 17 Nov 2025 10:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.118275
- Title: ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer
- Title(参考訳): ParaDySe: 変圧器における動的シーケンス長の並列型スイッチングフレームワーク
- Authors: Zhixin Ou, Peng Liang, Jianchen Han, Baihui Liu, Linbo Qiao,
- Abstract要約: ParaDySeは動的シーケンスのための新しい適応型並列戦略切替フレームワークである。
ParaDySeは、即時入力シーケンスに応じて、オンザフライで最適な戦略適用を可能にする。
- 参考スコア(独自算出の注目度): 8.224366948749838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic sequences with varying lengths have been widely used in the training of Transformer-based large language models (LLMs). However, current training frameworks adopt a pre-defined static parallel strategy for these sequences, causing neither communication-parallelization cancellation on short sequences nor out-of-memory on long sequences. To mitigate these issues, we propose ParaDySe, a novel adaptive Parallel strategy switching framework for Dynamic Sequences. ParaDySe enables on-the-fly optimal strategy adoption according to the immediate input sequence. It first implements the modular function libraries for parallel strategies with unified tensor layout specifications, and then builds sequence-aware memory and time cost models with hybrid methods. Guided by cost models, ParaDySe selects optimal layer-wise strategies for dynamic sequences via an efficient heuristic algorithm. By integrating these techniques together, ParaDySe achieves seamless hot-switching of optimal strategies through its well-designed function libraries. We compare ParaDySe with baselines on representative LLMs under datasets with sequence lengths up to 624K. Experimental results indicate that ParaDySe addresses OOM and CPC bottlenecks in LLM training by systematically integrating long-sequence optimizations with existing frameworks.
- Abstract(参考訳): 様々な長さの動的シーケンスは、Transformer-based large language model (LLM) のトレーニングに広く用いられている。
しかし、現在のトレーニングフレームワークでは、これらのシーケンスに対して事前に定義された静的並列戦略を採用しており、短いシーケンスでの通信並列化のキャンセルや長いシーケンスでのメモリ切れは発生しない。
これらの問題を緩和するために、動的シーケンスのための新しい適応型並列戦略切替フレームワークであるParaDySeを提案する。
ParaDySeは、即時入力シーケンスに応じて、オンザフライで最適な戦略適用を可能にする。
最初は並列戦略のためのモジュール関数ライブラリをテンソルレイアウトの統一仕様で実装し、次にハイブリッドメソッドでシーケンス対応メモリと時間コストモデルを構築した。
コストモデルによってガイドされたParaDySeは、効率的なヒューリスティックアルゴリズムによって動的シーケンスの最適層戦略を選択する。
これらのテクニックを統合することで、ParaDySeは、よく設計された関数ライブラリを通じて、最適な戦略のシームレスなホットスイッチを実現する。
そこで,ParaDySeと,最大624Kのデータセットに基づく代表LLMのベースラインを比較した。
実験結果から,LLMトレーニングにおけるOOMとCPCのボトルネックにParaDySeが対処できることが示唆された。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:16:03Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization [13.750841199401613]
本稿では,CMA-ES(Re limited-Memory CMA-ES)と呼ばれる,CMA-ES(Re limited-Memory CMA-ES)とCMA-ES(Restrict-Memory CMA-ES)を並列化する手法を提案する。
分散LM-CMAのためのマルチレベル学習ベースのメタフレームワークを提案する。階層的に構成された構造のため、Meta-ESは分散メタフレームワークを実装するのに適している。
論文 参考訳(メタデータ) (2023-10-09T03:24:51Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。