論文の概要: AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
- arxiv url: http://arxiv.org/abs/2604.27089v1
- Date: Wed, 29 Apr 2026 18:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.75589
- Title: AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
- Title(参考訳): AutoSP: コンパイラに基づくシーケンス並列性によるLLMトレーニングのロック解除
- Authors: Ahan Gupta, Zhihao Wang, Neel Dani, Masahiro Tanaka, Olatunji Ruwase, Minjia Zhang,
- Abstract要約: 大言語モデル(LLM)は、長いコンテキストタスクにおいて大きな有用性を示す。
既存のLLMトレーニングライブラリでは、長いコンテキストのトレーニングを最適化するための抽象化が簡単には提供されない。
より長いコンテキストでLLMトレーニングを自動的に最適化する最初の自動化ソリューションであるAutoSPを紹介します。
- 参考スコア(独自算出の注目度): 14.600392553338681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-language-models (LLMs) demonstrate enormous utility in long-context tasks which require processing prompts that consist of tens to hundreds of thousands of tokens. However, existing LLM training libraries do not provide easy to use abstractions to optimize for long-context training, instead focusing on optimizations for models with large parameter counts through ZeRO-3/FSDP, Tensor and Pipeline parallelism. This forces users to rewrite LLM training libraries to incorporate compositions of various complex long-context optimizations, such as sequence-parallelism, to training pipelines; a process that requires in-depth expertise, reducing developer productivity. To tackle these challenges, we introduce AutoSP: the first automated solution to automatically optimize LLM training for longer-contexts. AutoSP compiles models and applies a targeted set of optimizations: automated sequence parallelism, and long-context aware activation-checkpointing, to drastically enhance LLM trainability at negligible cost to throughput. Our evaluation demonstrates AutoSP's capability on both NVIDIA and AMD hardware, increasing training contexts by upto 2.7$\times$ and 2.5$\times$ respectively over competitive hand-written baseline at negligible cost to runtime performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数万から数十万のトークンからなる処理プロンプトを必要とする長いコンテキストタスクにおいて大きな有用性を示す。
しかし、既存のLLMトレーニングライブラリは、長いコンテキストのトレーニングに最適化するために簡単に使える抽象化を提供しておらず、代わりにZeRO-3/FSDP、Tensor、Pipeline並列性を通じて大きなパラメータ数を持つモデルの最適化に重点を置いている。
これにより、LLMトレーニングライブラリを書き換えて、シーケンス並列性などの複雑な長期コンテキスト最適化のコンポジションをパイプラインに組み込むことが求められます。
これらの課題に対処するために、私たちはAutoSPを紹介します。
AutoSPはモデルをコンパイルし、自動化シーケンスの並列性、長期コンテキストのアクティベーションチェックポイントといった最適化を目標としています。
評価では、NVIDIAハードウェアとAMDハードウェアの両方でAutoSPの能力を実証し、実行時のパフォーマンスに対して無視できるコストで、競争力のある手書きベースラインに対して、トレーニングコンテキストを2.7$\times$と2.5$\times$に向上させた。
関連論文リスト
- Automatic Configuration of LLM Post-Training Pipelines [4.833783769369]
AutoPipeは、LCMポストトレーニングの構成選択のための予算対応フレームワークである。
オフラインでAutoPipeは、データセットで条件付けられた学習からランクまでのサロゲートを、過去の実行から学習する。
オンラインでは、AutoPipeはオフラインガイダンスを使用してベイジアン最適化とデータセット固有の偏差をモデル化する。
論文 参考訳(メタデータ) (2026-03-19T11:26:56Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training [3.0051215935332505]
本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。
いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
論文 参考訳(メタデータ) (2023-11-27T13:35:15Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。