論文の概要: Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents
- arxiv url: http://arxiv.org/abs/2606.06453v1
- Date: Thu, 04 Jun 2026 17:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:45.007457
- Title: Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents
- Title(参考訳): Vortex:AIエージェントのための効率的かつプログラム可能なスパースアテンション
- Authors: Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen,
- Abstract要約: Vortexは、ページ中心のテンソル抽象化の上にPython組み込み言語を組み合わせるシステムである。
スパースアテンションアルゴリズムの迅速なプロトタイピング、デプロイメント、評価を可能にする。
MLAベースのGLM-4.7-Flashでは最大4.7時間、NVIDIA B200では229B MiniMax-M2.7では1.37時間である。
- 参考スコア(独自算出の注目度): 38.02396924394281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse attention is becoming increasingly important for serving large language models (LLMs) as generation lengths continue to grow. However, deploying and evaluating new sparse attention algorithms at scale remains highly engineering-intensive, slowing both human researchers and AI agents in exploring the sparse attention design. To address this challenge, we present Vortex, a system that combines a Python-embedded frontend language atop a page-centric tensor abstraction for expressing a broad range of sparse attention algorithms, with an efficient backend tightly integrated into modern LLM serving stacks. Vortex enables rapid prototyping, deployment, and evaluation of sparse attention algorithms, effectively translating their theoretical efficiency gains into real-world throughput improvements. As a result, Vortex substantially accelerates the design and iteration of sparse attention algorithms. First, AI agents use Vortex to automatically generate and refine diverse algorithms, the best reaching up to $3.46\times$ higher throughput than full attention while preserving accuracy. Second, Vortex extends sparse attention to emerging architectures and very large models that are otherwise hard to experiment with, reaching up to $4.7\times$ higher throughput on the MLA-based GLM-4.7-Flash and $1.37\times$ on the 229B-parameter MiniMax-M2.7 on NVIDIA B200 GPUs.
- Abstract(参考訳): 世代長が増加し続けるにつれて、大きな言語モデル(LLM)を提供する上で、疎い注意がますます重要になっている。
しかし、新しいスパースアテンションアルゴリズムを大規模に展開し評価することは、エンジニアリングに強く依存しており、スパースアテンションデザインの探索において、人間の研究者とAIエージェントの両方を遅くしている。
この課題に対処するために、Vortexは、ページ中心のテンソル抽象の上にPythonを組み込んだフロントエンド言語を組み込んだシステムで、広い範囲のスパースアテンションアルゴリズムを表現し、効率的なバックエンドをモダンなLLMサービススタックに統合する。
Vortexはスパースアテンションアルゴリズムの迅速なプロトタイピング、デプロイ、評価を可能にし、理論上の効率性の向上を現実のスループット改善に効果的に翻訳する。
結果として、Vortexはスパースアテンションアルゴリズムの設計とイテレーションを大幅に加速する。
まず、AIエージェントはVortexを使用して多様なアルゴリズムを自動生成し、洗練する。
第2に、Vortexは新興アーキテクチャや実験が難しい非常に大きなモデルに対して、MLAベースのGLM-4.7-Flashで最大4.7\times$、NVIDIA B200 GPUで229BパラメータのMiniMax-M2.7で最大1.37\times$まで注意を払っている。
関連論文リスト
- AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines [3.4381029715186844]
AIE4MLはAIモデルをAIE-ML生成デバイスをターゲットにした最適化ファームウェアに自動的に変換するフレームワークである。
シングルカーネルベースラインと比較して98.6%の効率を実現しています。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
論文 参考訳(メタデータ) (2025-12-17T20:13:05Z) - Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis [0.1274452325287335]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本稿では、グラフ解析ルーチンの効率的なC実装を生成するLLMの能力について包括的に研究する。
これらのモデルがトランスフォーメーションアルゴリズムテクニックを発明する可能性は、将来の研究にとって魅力的なフロンティアである。
論文 参考訳(メタデータ) (2025-07-09T00:46:30Z) - QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm [24.09018606185114]
我々は,LLMがGPU上での高レベル最適化ロジックの生成と低レベル実装を分離するためのLLMフレンドリーな思考言語(LLM-TL)を提案する。
2段階の推論ワークフロー、TL-Codeの生成と変換に加えて、LLMはさまざまなGPU上でFlashAttention実装を自動的に生成できる。
論文 参考訳(メタデータ) (2025-06-14T05:38:19Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis [15.71443217369106]
我々は、Flash Attentionに基づくPASAと呼ばれる低精度で数学的に等価なアルゴリズムを開発した。
PASAは、オンライン擬似平均シフトとグローバルリカバリの2つの新しいテクニックを紹介している。
注意入力データの大きなバイアスと振幅が,数値オーバーフローに寄与する重要な要因であることがわかった。
論文 参考訳(メタデータ) (2025-02-26T01:00:46Z) - FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness [0.0]
FlashAttentionのようなメソッドは、不要なデータ転送を避けることによって、ネイティブのPyTorchよりもx6パフォーマンスの向上を実現している。
本稿では、ディープラーニングモデルのためのニューラルネットワークダイアグラムを拡張し、GPU階層間のリソース使用量とタスクの分散を検討する。
本研究では,中間レベルの擬似コードをダイアグラムで表現する手法を開発し,ハードウェア認識アルゴリズムをステップバイステップで導出できるようにする。
論文 参考訳(メタデータ) (2024-12-04T13:52:04Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。