論文の概要: Mesh-Attention: A New Communication-Efficient Distributed Attention with Improved Data Locality
- arxiv url: http://arxiv.org/abs/2512.20968v1
- Date: Wed, 24 Dec 2025 05:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.693342
- Title: Mesh-Attention: A New Communication-Efficient Distributed Attention with Improved Data Locality
- Title(参考訳): Mesh-Attention: データローカリティを改善した通信効率の良い分散アテンション
- Authors: Sirui Chen, Jingji Chen, Siqi Zhu, Ziheng Jiang, Yanghua Peng, Xuehai Qian,
- Abstract要約: 本稿では,新しい分散アテンションアルゴリズムであるMesh-Attentionを提案する。
提案手法では,ブロックの2次元タイル(1次元行や列ではなく)を各GPUに割り当て,高い効率を実現する。
Mesh-Attentionは最大3.4倍のスピードアップを実現し、通信容量を最大85.4%削減できることを示す。
- 参考スコア(独自算出の注目度): 13.372726503520466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed attention is a fundamental problem for scaling context window for Large Language Models (LLMs). The state-of-the-art method, Ring-Attention, suffers from scalability limitations due to its excessive communication traffic. This paper proposes a new distributed attention algorithm, Mesh-Attention, by rethinking the design space of distributed attention with a new matrix-based model. Our method assigns a two-dimensional tile -- rather than one-dimensional row or column -- of computation blocks to each GPU to achieve higher efficiency through lower communication-computation (CommCom) ratio. The general approach covers Ring-Attention as a special case, and allows the tuning of CommCom ratio with different tile shapes. Importantly, we propose a greedy algorithm that can efficiently search the scheduling space within the tile with restrictions that ensure efficient communication among GPUs. The theoretical analysis shows that Mesh-Attention leads to a much lower communication complexity and exhibits good scalability comparing to other current algorithms. Our extensive experiment results show that Mesh-Attention can achieve up to 3.4x speedup (2.9x on average) and reduce the communication volume by up to 85.4% (79.0% on average) on 256 GPUs. Our scalability results further demonstrate that Mesh-Attention sustains superior performance as the system scales, substantially reducing overhead in large-scale deployments. The results convincingly confirm the advantage of Mesh-Attention.
- Abstract(参考訳): 分散注意は、Large Language Models (LLM) のコンテキストウィンドウのスケーリングにおける根本的な問題である。
最先端の方法であるRing-Attentionは、通信トラフィックの過大さによるスケーラビリティの制限に悩まされている。
本稿では,分散アテンションの設計空間を行列ベースモデルで再考することにより,新しい分散アテンションアルゴリズムであるMesh-Attentionを提案する。
計算ブロックの2次元タイル(1次元行や列ではなく)を各GPUに割り当て,より低い通信計算(CommCom)比で高い効率を達成する。
一般のアプローチでは、Ring-Attentionを特殊なケースとしてカバーし、異なるタイル形状のCommCom比のチューニングを可能にする。
重要なことは、GPU間の効率的な通信を確保するために、タイル内のスケジューリング空間を効率的に探索できるグリージーアルゴリズムを提案することである。
理論的解析によると、メッシュアテンションは通信の複雑さをはるかに小さくし、他のアルゴリズムと比較して優れたスケーラビリティを示す。
実験の結果,Mesh-Attentionは256GPU上で最大3.4倍(平均2.9倍)のスピードアップを実現し,通信容量を最大85.4%(平均79.0%)削減できることがわかった。
当社のスケーラビリティ結果は,システム規模が拡大するにつれて,Mesh-Attentionが優れたパフォーマンスを保ち,大規模デプロイメントのオーバーヘッドを大幅に削減していることをさらに証明しています。
結果は、Mesh-Attentionの利点を確実に裏付ける。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Physics-Inspired Binary Neural Networks: Interpretable Compression with Theoretical Guarantees [20.854288216118423]
多くの逆問題では、自然に物理と空間を符号化するアルゴリズムアンロールネットワークが認められている。
本研究では,データ駆動型1ビット量子化と単一グローバルスケールを組み合わせたPhysical-Inspired Binary Neural Network (PIBiNN)を提案する。
この設計は、構造零点を利用することにより、重量あたり1ビット未満の圧縮率をもたらす。
論文 参考訳(メタデータ) (2025-02-04T00:53:10Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。
また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文 参考訳(メタデータ) (2020-09-05T21:44:39Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z) - Communication-efficient Variance-reduced Stochastic Gradient Descent [0.0]
通信効率のよい分散最適化の問題を考える。
特に、分散還元勾配に着目し、通信効率を高めるための新しいアプローチを提案する。
実データセットの包括的理論的および数値解析により、我々のアルゴリズムは通信の複雑さを95%減らし、ほとんど顕著なペナルティを伴わないことが明らかとなった。
論文 参考訳(メタデータ) (2020-03-10T13:22:16Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。