Fugu-MT 論文翻訳(概要): Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

論文の概要: Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

arxiv url: http://arxiv.org/abs/2602.21196v1
Date: Tue, 24 Feb 2026 18:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.891164
Title: Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking
Title（参考訳）: Untied Ulysses: ヘッドワイドチャンキングによるメモリ効率の良いコンテキスト並列処理
Authors: Ravi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin,
Abstract要約: UPipeは、注意頭レベルできめ細かなチャンキングを行う、シンプルで効果的なコンテキスト並列化手法である。提案手法は,32Bトランスフォーマーの注意層における中間テンソルメモリ使用量を最大87.5$%削減する。 UPipeは、単一の8$times$H100ノードでLlama3-8Bをトレーニングする際の5Mトークンのコンテキスト長をサポートすることができる。
参考スコア（独自算出の注目度）: 8.535396390209103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficiently processing long sequences with Transformer models usually requires splitting the computations across accelerators via context parallelism. The dominant approaches in this family of methods, such as Ring Attention or DeepSpeed Ulysses, enable scaling over the context dimension but do not focus on memory efficiency, which limits the sequence lengths they can support. More advanced techniques, such as Fully Pipelined Distributed Transformer or activation offloading, can further extend the possible context length at the cost of training throughput. In this paper, we present UPipe, a simple yet effective context parallelism technique that performs fine-grained chunking at the attention head level. This technique significantly reduces the activation memory usage of self-attention, breaking the activation memory barrier and unlocking much longer context lengths. Our approach reduces intermediate tensor memory usage in the attention layer by as much as 87.5$\%$ for 32B Transformers, while matching previous context parallelism techniques in terms of training speed. UPipe can support the context length of 5M tokens when training Llama3-8B on a single 8$\times$H100 node, improving upon prior methods by over 25$\%$.
Abstract（参考訳）: トランスフォーマーモデルによる長いシーケンスの効率的な処理は通常、コンテキスト並列性を通じてアクセラレータ間で計算を分割する必要がある。 Ring Attention(リンク)やDeepSpeed Ulysses(リンク)のような、この一連の手法における支配的なアプローチは、コンテキスト次元のスケーリングを可能にするが、メモリ効率に重点を置いておらず、サポートできるシーケンスの長さを制限する。 Fully Pipelined Distributed Transformerやアクティベーションオフロードといった高度な技術は、トレーニングスループットのコストでコンテキスト長をさらに拡張することができる。本稿では,注意頭レベルできめ細かなチャンキングを行う,シンプルで効果的なコンテキスト並列化手法であるUPipeを提案する。この技術は、自己アテンションのアクティベーションメモリ使用量を大幅に削減し、アクティベーションメモリバリアを壊し、より長いコンテキスト長をアンロックする。提案手法は,32Bトランスフォーマーの注意層における中間テンソルメモリ使用量を最大87.5$\%削減する。 UPipeは、Llama3-8Bを1つの8$\times$H100ノードでトレーニングする際の5Mトークンのコンテキスト長をサポートすることができる。

関連論文リスト

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
From Projection to Prediction: Beyond Logits for Scalable Language Models [0.28647133890966986]
大規模言語モデル(LLM)のトレーニングは通常、出力層で2段階のパイプラインを伴います。隠れ状態とターゲットトークンの損失を直接計算することにより、当社のアプローチは明示的なロジットの実体化をバイパスする。
論文参考訳（メタデータ） (2025-11-18T02:23:47Z)
TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。 TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。 TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文参考訳（メタデータ） (2025-11-10T17:45:09Z)
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts [5.585952216289788]
トランスフォーマーモデルは、2次時間と線形メモリの複雑さのために、長いコンテキスト推論に苦しむ。リカレントメモリ(RMT)は、コストの線形時間とメモリ使用量の一定を削減してソリューションを提供する。しかし、メモリ更新メカニズムがシーケンシャルな実行を引き起こし、パフォーマンスのボトルネックが発生します。本稿では,RTTのセグメント間の並列性を正確に保ちつつ,並列性を解放するスケジューリング手法であるDiagonalを紹介する。
論文参考訳（メタデータ） (2025-06-05T16:43:48Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。