論文の概要: TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design
- arxiv url: http://arxiv.org/abs/2602.12962v1
- Date: Fri, 13 Feb 2026 14:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.980742
- Title: TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design
- Title(参考訳): TriGen:SW-HW共設計に基づく大規模言語モデルのエンドツーエンド高速化のためのNPUアーキテクチャ
- Authors: Jonghun Lee, Junghoon Lee, Hyeonjin Kim, Seoho Jeon, Jisup Yoon, Hyunbin Park, Meejeong Park, Heonjae Ha,
- Abstract要約: TriGenは、ソフトウェア・ハードウエアの共同設計を通じてリソース制約のある環境向けに設計された、新しいNPUアーキテクチャである。
我々は,TriGenが平均2.73倍の性能向上を実現し,ベースラインのNPU設計よりも52%少ないメモリ転送を実現し,精度を損なうことを示した。
- 参考スコア(独自算出の注目度): 4.251127523213289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have extensively explored NPU architectures for accelerating AI inference in on-device environments, which are inherently resource-constrained. Meanwhile, transformer-based large language models (LLMs) have become dominant, with rapidly increasing model sizes but low degree of parameter reuse compared to conventional CNNs, making end-to-end execution on resource-limited devices extremely challenging. To address these challenges, we propose TriGen, a novel NPU architecture tailored for resource-constrained environments through software-hardware co-design. Firstly, TriGen adopts low-precision computation using microscaling (MX) to enable additional optimization opportunities while preserving accuracy, and resolves the issues that arise by employing such precision. Secondly, to jointly optimize both nonlinear and linear operations, TriGen eliminates the need for specialized hardware for essential nonlinear operations by using fast and accurate LUT, thereby maximizing performance gains and reducing hardware-cost in on-device environments, and finally, by taking practical hardware constraints into account, further employs scheduling techniques to maximize computational utilization even under limited on-chip memory capacity. We evaluate the performance of TriGen on various LLMs and show that TriGen achieves an average 2.73x performance speedup and 52% less memory transfer over the baseline NPU design with negligible accuracy loss.
- Abstract(参考訳): 最近の研究は、本質的にリソース制約のあるオンデバイス環境において、AI推論を加速するためのNPUアーキテクチャを幅広く研究している。
一方、トランスフォーマーベースの大規模言語モデル(LLM)が主流となり、モデルサイズは急速に増大するが、従来のCNNに比べてパラメータ再利用の度合いは低いため、リソース制限されたデバイス上でのエンドツーエンド実行は非常に困難である。
これらの課題に対処するため,ソフトウェア・ハードウェア共同設計による資源制約環境に適した新しいNPUアーキテクチャであるTriGenを提案する。
第一に、TriGenはマイクロスケーリング(MX)を用いた低精度計算を採用し、精度を維持しながらさらなる最適化の機会を確保し、そのような精度を用いて発生する問題を解決している。
第二に、TriGenは、非線形動作と線形動作の両方を共同最適化するために、高速かつ高精度なLUTを使用することで、必須非線形動作のための特別なハードウェアの必要性を排除し、これにより、デバイス上の環境における性能向上とハードウェアコストの低減を実現し、さらに、実際のハードウェア制約を考慮して、オンチップメモリ容量の制限下でも計算利用を最大化するためのスケジューリング技術を採用する。
我々は,TriGenの性能評価を行い,TriGenが平均2.73倍の性能向上を実現し,ベースラインのNPU設計よりも52%少ないメモリ転送を実現し,精度を損なうことを示した。
関連論文リスト
- Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。
アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文 参考訳(メタデータ) (2025-06-08T10:14:54Z) - XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。
XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。
XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文 参考訳(メタデータ) (2025-02-10T17:33:30Z) - Dynamic Range Reduction via Branch-and-Bound [1.0141085397402314]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。