論文の概要: Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking
- arxiv url: http://arxiv.org/abs/2602.21196v1
- Date: Tue, 24 Feb 2026 18:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.891164
- Title: Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking
- Title(参考訳): Untied Ulysses: ヘッドワイドチャンキングによるメモリ効率の良いコンテキスト並列処理
- Authors: Ravi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin,
- Abstract要約: UPipeは、注意頭レベルできめ細かなチャンキングを行う、シンプルで効果的なコンテキスト並列化手法である。
提案手法は,32Bトランスフォーマーの注意層における中間テンソルメモリ使用量を最大87.5$%削減する。
UPipeは、単一の8$times$H100ノードでLlama3-8Bをトレーニングする際の5Mトークンのコンテキスト長をサポートすることができる。
- 参考スコア(独自算出の注目度): 8.535396390209103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently processing long sequences with Transformer models usually requires splitting the computations across accelerators via context parallelism. The dominant approaches in this family of methods, such as Ring Attention or DeepSpeed Ulysses, enable scaling over the context dimension but do not focus on memory efficiency, which limits the sequence lengths they can support. More advanced techniques, such as Fully Pipelined Distributed Transformer or activation offloading, can further extend the possible context length at the cost of training throughput. In this paper, we present UPipe, a simple yet effective context parallelism technique that performs fine-grained chunking at the attention head level. This technique significantly reduces the activation memory usage of self-attention, breaking the activation memory barrier and unlocking much longer context lengths. Our approach reduces intermediate tensor memory usage in the attention layer by as much as 87.5$\%$ for 32B Transformers, while matching previous context parallelism techniques in terms of training speed. UPipe can support the context length of 5M tokens when training Llama3-8B on a single 8$\times$H100 node, improving upon prior methods by over 25$\%$.
- Abstract(参考訳): トランスフォーマーモデルによる長いシーケンスの効率的な処理は通常、コンテキスト並列性を通じてアクセラレータ間で計算を分割する必要がある。
Ring Attention(リンク)やDeepSpeed Ulysses(リンク)のような、この一連の手法における支配的なアプローチは、コンテキスト次元のスケーリングを可能にするが、メモリ効率に重点を置いておらず、サポートできるシーケンスの長さを制限する。
Fully Pipelined Distributed Transformerやアクティベーションオフロードといった高度な技術は、トレーニングスループットのコストでコンテキスト長をさらに拡張することができる。
本稿では,注意頭レベルできめ細かなチャンキングを行う,シンプルで効果的なコンテキスト並列化手法であるUPipeを提案する。
この技術は、自己アテンションのアクティベーションメモリ使用量を大幅に削減し、アクティベーションメモリバリアを壊し、より長いコンテキスト長をアンロックする。
提案手法は,32Bトランスフォーマーの注意層における中間テンソルメモリ使用量を最大87.5$\%削減する。
UPipeは、Llama3-8Bを1つの8$\times$H100ノードでトレーニングする際の5Mトークンのコンテキスト長をサポートすることができる。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts [5.585952216289788]
トランスフォーマーモデルは、2次時間と線形メモリの複雑さのために、長いコンテキスト推論に苦しむ。
リカレントメモリ(RMT)は、コストの線形時間とメモリ使用量の一定を削減してソリューションを提供する。
しかし、メモリ更新メカニズムがシーケンシャルな実行を引き起こし、パフォーマンスのボトルネックが発生します。
本稿では,RTTのセグメント間の並列性を正確に保ちつつ,並列性を解放するスケジューリング手法であるDiagonalを紹介する。
論文 参考訳(メタデータ) (2025-06-05T16:43:48Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。