論文の概要: ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer
- arxiv url: http://arxiv.org/abs/2511.13198v1
- Date: Mon, 17 Nov 2025 10:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.118275
- Title: ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer
- Title(参考訳): ParaDySe: 変圧器における動的シーケンス長の並列型スイッチングフレームワーク
- Authors: Zhixin Ou, Peng Liang, Jianchen Han, Baihui Liu, Linbo Qiao,
- Abstract要約: ParaDySeは動的シーケンスのための新しい適応型並列戦略切替フレームワークである。
ParaDySeは、即時入力シーケンスに応じて、オンザフライで最適な戦略適用を可能にする。
- 参考スコア(独自算出の注目度): 8.224366948749838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic sequences with varying lengths have been widely used in the training of Transformer-based large language models (LLMs). However, current training frameworks adopt a pre-defined static parallel strategy for these sequences, causing neither communication-parallelization cancellation on short sequences nor out-of-memory on long sequences. To mitigate these issues, we propose ParaDySe, a novel adaptive Parallel strategy switching framework for Dynamic Sequences. ParaDySe enables on-the-fly optimal strategy adoption according to the immediate input sequence. It first implements the modular function libraries for parallel strategies with unified tensor layout specifications, and then builds sequence-aware memory and time cost models with hybrid methods. Guided by cost models, ParaDySe selects optimal layer-wise strategies for dynamic sequences via an efficient heuristic algorithm. By integrating these techniques together, ParaDySe achieves seamless hot-switching of optimal strategies through its well-designed function libraries. We compare ParaDySe with baselines on representative LLMs under datasets with sequence lengths up to 624K. Experimental results indicate that ParaDySe addresses OOM and CPC bottlenecks in LLM training by systematically integrating long-sequence optimizations with existing frameworks.
- Abstract(参考訳): 様々な長さの動的シーケンスは、Transformer-based large language model (LLM) のトレーニングに広く用いられている。
しかし、現在のトレーニングフレームワークでは、これらのシーケンスに対して事前に定義された静的並列戦略を採用しており、短いシーケンスでの通信並列化のキャンセルや長いシーケンスでのメモリ切れは発生しない。
これらの問題を緩和するために、動的シーケンスのための新しい適応型並列戦略切替フレームワークであるParaDySeを提案する。
ParaDySeは、即時入力シーケンスに応じて、オンザフライで最適な戦略適用を可能にする。
最初は並列戦略のためのモジュール関数ライブラリをテンソルレイアウトの統一仕様で実装し、次にハイブリッドメソッドでシーケンス対応メモリと時間コストモデルを構築した。
コストモデルによってガイドされたParaDySeは、効率的なヒューリスティックアルゴリズムによって動的シーケンスの最適層戦略を選択する。
これらのテクニックを統合することで、ParaDySeは、よく設計された関数ライブラリを通じて、最適な戦略のシームレスなホットスイッチを実現する。
そこで,ParaDySeと,最大624Kのデータセットに基づく代表LLMのベースラインを比較した。
実験結果から,LLMトレーニングにおけるOOMとCPCのボトルネックにParaDySeが対処できることが示唆された。
関連論文リスト
- PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - TIDE: Tuning-Integrated Dynamic Evolution for LLM-Based Automated Heuristic Design [7.264986493460248]
TIDEはTuning-Integrated Dynamic Evolutionフレームワークで、パラメータ最適化から構造的推論を分離するように設計されている。
9つの最適化問題に対する実験により、TIDEは最先端のチューニング方法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2026-01-29T04:00:02Z) - Experience-Guided Adaptation of Inference-Time Reasoning Strategies [49.954515048847874]
Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。
EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
論文 参考訳(メタデータ) (2025-11-14T17:45:28Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:16:03Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization [13.750841199401613]
本稿では,CMA-ES(Re limited-Memory CMA-ES)と呼ばれる,CMA-ES(Re limited-Memory CMA-ES)とCMA-ES(Restrict-Memory CMA-ES)を並列化する手法を提案する。
分散LM-CMAのためのマルチレベル学習ベースのメタフレームワークを提案する。階層的に構成された構造のため、Meta-ESは分散メタフレームワークを実装するのに適している。
論文 参考訳(メタデータ) (2023-10-09T03:24:51Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。