論文の概要: NeuronMM: High-Performance Matrix Multiplication for LLM Inference on AWS Trainium
- arxiv url: http://arxiv.org/abs/2510.25977v1
- Date: Wed, 29 Oct 2025 21:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.579725
- Title: NeuronMM: High-Performance Matrix Multiplication for LLM Inference on AWS Trainium
- Title(参考訳): NeuronMM: AWS Trainium上でのLCM推論のための高性能マトリックス乗算
- Authors: Dinghong Song, Jierui Xu, Weichu Yang, Pengfei Su, Dong Li,
- Abstract要約: 我々は,Tranium 上での LLM 推論のために,臨界計算カーネルである高性能の matmul を設計する。
当社のシステムは,AWS on Trainiumで実装された最先端のマットマよりもはるかに優れています。
- 参考スコア(独自算出の注目度): 4.7520621855466425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI accelerators, customized to AI workloads, provide cost-effective and high-performance solutions for training and inference. Trainium, an AI accelerator recently developed by Amazon Web Services (AWS), provides an attractive option for LLM training and inference through its heterogeneous architecture. However, leveraging Trainium architecture for high performance can be challenging because of its systolic array architecture and special requirement on data layout. In this paper, we design high-performance matrix multiplication (matmul), a critical compute kernel, for LLM inference on Trainium. We introduce a series of techniques customized to Trainium based on kernel fusion and novel caching strategies to reduce data movement across the software-managed memory hierarchy, maximize SRAM bandwidth, and avoid expensive matrix transpose. Evaluating with nine datasets and four recent LLMs, we show that our system largely outperforms the state-of-the-art matmul implemented by AWS on Trainium: at the level of matmul kernel, it achieves an average 1.35x speedup (up to 2.22x), which translates to an average 1.66x speedup (up to 2.49x) for end-to-end LLM inference.
- Abstract(参考訳): AIアクセラレータは、AIワークロード用にカスタマイズされ、トレーニングと推論のためのコスト効率と高性能なソリューションを提供する。
最近Amazon Web Services(AWS)によって開発されたAIアクセラレータTraniumは、異種アーキテクチャによるLLMトレーニングと推論に魅力的な選択肢を提供する。
しかし、Traniumアーキテクチャを高性能に活用することは、systolic配列アーキテクチャとデータレイアウトに関する特別な要件のために困難である。
本稿では,Tranium 上での LLM 推論のための重要な計算カーネルである,高性能行列乗算 (matmul) を設計する。
カーネル融合と新しいキャッシュ戦略に基づくTranium用にカスタマイズされた一連のテクニックを導入し、ソフトウェア管理メモリ階層間のデータ移動を減らし、SRAM帯域幅を最大化し、高価な行列変換を避ける。
9つのデータセットと4つの最近のLCMで評価すると、我々のシステムは、Tranium上でAWSが実装した最先端のマトゥルよりも大幅に優れており、マトゥルカーネルのレベルでは、平均1.35倍のスピードアップ(最大2.22倍)を達成し、エンドツーエンドのLCM推論では平均1.66倍のスピードアップ(最大2.49倍)に変換される。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - HLAT: High-quality Large Language Model Pre-trained on AWS Trainium [21.183733616898365]
本稿では,4096 AWS Trainiumアクセラレータを1.8兆トークン以上で事前トレーニングした7Bおよび70BデコーダのみのLLMのファミリーを紹介する。
HLATはモデルサイズと同等のモデル品質が得られることを示す。
論文 参考訳(メタデータ) (2024-04-16T15:02:46Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。