Fugu-MT 論文翻訳(概要): TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

論文の概要: TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

arxiv url: http://arxiv.org/abs/2602.12962v1
Date: Fri, 13 Feb 2026 14:28:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-16 23:37:53.980742
Title: TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design
Title（参考訳）: TriGen:SW-HW共設計に基づく大規模言語モデルのエンドツーエンド高速化のためのNPUアーキテクチャ
Authors: Jonghun Lee, Junghoon Lee, Hyeonjin Kim, Seoho Jeon, Jisup Yoon, Hyunbin Park, Meejeong Park, Heonjae Ha,
Abstract要約: TriGenは、ソフトウェア・ハードウエアの共同設計を通じてリソース制約のある環境向けに設計された、新しいNPUアーキテクチャである。我々は,TriGenが平均2.73倍の性能向上を実現し,ベースラインのNPU設計よりも52%少ないメモリ転送を実現し,精度を損なうことを示した。
参考スコア（独自算出の注目度）: 4.251127523213289
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have extensively explored NPU architectures for accelerating AI inference in on-device environments, which are inherently resource-constrained. Meanwhile, transformer-based large language models (LLMs) have become dominant, with rapidly increasing model sizes but low degree of parameter reuse compared to conventional CNNs, making end-to-end execution on resource-limited devices extremely challenging. To address these challenges, we propose TriGen, a novel NPU architecture tailored for resource-constrained environments through software-hardware co-design. Firstly, TriGen adopts low-precision computation using microscaling (MX) to enable additional optimization opportunities while preserving accuracy, and resolves the issues that arise by employing such precision. Secondly, to jointly optimize both nonlinear and linear operations, TriGen eliminates the need for specialized hardware for essential nonlinear operations by using fast and accurate LUT, thereby maximizing performance gains and reducing hardware-cost in on-device environments, and finally, by taking practical hardware constraints into account, further employs scheduling techniques to maximize computational utilization even under limited on-chip memory capacity. We evaluate the performance of TriGen on various LLMs and show that TriGen achieves an average 2.73x performance speedup and 52% less memory transfer over the baseline NPU design with negligible accuracy loss.
Abstract（参考訳）: 最近の研究は、本質的にリソース制約のあるオンデバイス環境において、AI推論を加速するためのNPUアーキテクチャを幅広く研究している。一方、トランスフォーマーベースの大規模言語モデル(LLM)が主流となり、モデルサイズは急速に増大するが、従来のCNNに比べてパラメータ再利用の度合いは低いため、リソース制限されたデバイス上でのエンドツーエンド実行は非常に困難である。これらの課題に対処するため,ソフトウェア・ハードウェア共同設計による資源制約環境に適した新しいNPUアーキテクチャであるTriGenを提案する。第一に、TriGenはマイクロスケーリング(MX)を用いた低精度計算を採用し、精度を維持しながらさらなる最適化の機会を確保し、そのような精度を用いて発生する問題を解決している。第二に、TriGenは、非線形動作と線形動作の両方を共同最適化するために、高速かつ高精度なLUTを使用することで、必須非線形動作のための特別なハードウェアの必要性を排除し、これにより、デバイス上の環境における性能向上とハードウェアコストの低減を実現し、さらに、実際のハードウェア制約を考慮して、オンチップメモリ容量の制限下でも計算利用を最大化するためのスケジューリング技術を採用する。我々は,TriGenの性能評価を行い,TriGenが平均2.73倍の性能向上を実現し,ベースラインのNPU設計よりも52%少ないメモリ転送を実現し,精度を損なうことを示した。

関連論文リスト

Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文参考訳（メタデータ） (2025-06-08T10:14:54Z)
XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。 XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。 XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文参考訳（メタデータ） (2025-02-10T17:33:30Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Dynamic Range Reduction via Branch-and-Bound [1.0141085397402314]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2024-09-17T03:07:56Z)
Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文参考訳（メタデータ） (2024-06-21T20:44:23Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Reconfigurable co-processor architecture with limited numerical precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文参考訳（メタデータ） (2021-08-21T09:50:54Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T23:52:03Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。