論文の概要: Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
- arxiv url: http://arxiv.org/abs/2510.17896v1
- Date: Sun, 19 Oct 2025 07:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.326828
- Title: Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
- Title(参考訳): Long-Context Attention Benchmark: カーネル効率から分散コンテキスト並列性へ
- Authors: Tao Bu, Qiangang Wang, Bowen Zeng, Hanwen Sun, Yunpeng Huang, Chun Cao, Jingwei Xu,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は目覚ましい成功を収めているが、その標準的な注意機構は、シーケンス長に関して2次計算とメモリコストを発生させる。
従来の作業では,1)高密度かつ疎度な注目演算子を加速するカーネルレベルの最適化,2)複数のデバイスにまたがって注意を拡大するモジュールレベルの戦略,という2つの方向でこの問題に取り組む。
本稿では,注目カーネルとコンテキスト並列機構をモジュール型トレーニングインタフェースに統合し,評価を行う統一ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 5.744937422147067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (LLMs) have achieved remarkable success, yet their standard attention mechanism incurs quadratic computation and memory costs with respect to sequence length, posing a major bottleneck for long-context training. Prior work tackles this challenge along two directions: (1) kernel-level optimizations, which accelerate dense and sparse attention operators; and (2) module-level strategies, often referred to as distributed attention or context parallel training, which scale attention across multiple devices. However, systematic evaluation still remains limited: operator-level comparisons are often incomplete, while context parallel strategies are typically framework-specific, with unclear performance analysis across contexts. To address these gaps, we propose a unified benchmark that integrates representative attention kernels and context parallel mechanisms with a modular and extensible interface for evaluation. The benchmark evaluates methods along two critical dimensions: (1) attention mask patterns, which strongly affect efficiency, scalability, and usability, and (2) sequence length and distributed scale, which determine performance under extreme long-context training. Through comprehensive experiments on the cluster of up to 96 GPUs, our benchmark enables reproducible comparisons, highlights method-specific trade-offs, and provides practical guidance for designing and deploying attention mechanisms in long-context LLM training.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル (LLM) は目覚ましい成功を収めているが、その標準的な注意機構は2次計算とメモリコストをシーケンス長に対して引き起こし、長文学習の大きなボトルネックとなっている。
1)高密度かつ疎度なアテンション演算子を加速するカーネルレベルの最適化、(2)モジュールレベルの戦略(しばしば分散アテンションまたはコンテキスト並列トレーニングと呼ばれ、複数のデバイスにまたがるアテンションを拡大する)である。
しかし、体系的な評価は依然として限られており、オペレータレベルの比較は不完全であることが多いが、コンテキスト並列戦略は典型的にはフレームワーク固有のものであり、コンテキスト全体のパフォーマンス分析が不明確である。
これらのギャップに対処するため,本研究では,注目カーネルとコンテキスト並列機構をモジュールで拡張可能なインターフェースに統合し,評価を行う統一ベンチマークを提案する。
このベンチマークは,(1)効率,スケーラビリティ,ユーザビリティに強い影響を与える注目マスクパターン,(2)シーケンス長と分散スケールの2つの重要な側面に沿った手法を評価する。
96GPUのクラスタ上での総合的な実験を通じて、再現可能な比較を可能にし、メソッド固有のトレードオフを強調し、長期LLMトレーニングにおける注意機構の設計と展開のための実践的なガイダンスを提供する。
関連論文リスト
- Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。