論文の概要: Context-Driven Performance Modeling for Causal Inference Operators on Neural Processing Units
- arxiv url: http://arxiv.org/abs/2509.25155v1
- Date: Mon, 29 Sep 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.141358
- Title: Context-Driven Performance Modeling for Causal Inference Operators on Neural Processing Units
- Title(参考訳): ニューラルネットワークユニットにおける因果推論演算子のコンテキスト駆動性能モデリング
- Authors: Neelesh Gupta, Rakshith Jayanth, Dhruv Parikh, Viktor Prasanna,
- Abstract要約: 大規模言語モデル(LLM)は、リソース制約されたエッジデバイスに対する長期のコンテキスト推論の需要を押し上げている。
ニューラル処理ユニット(NPU)にこれらのモデルをデプロイすると、アーキテクチャミスマッチによる重大な問題が発生する。
本稿では,現代NPUにおける各種因果推論演算子の総合的性能解析について述べる。
- 参考スコア(独自算出の注目度): 0.06999740786886537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of large language models (LLMs) has driven demand for long context inference on resource constrained edge devices. However, deploying these models on Neural Processing Units (NPUs) presents significant challenges due to the architectural mismatch: quadratic complexity of standard attention mechanisms conflicts with memory and compute patterns of edge accelerators. This paper presents a comprehensive performance analysis of various causal inference operators on a modern NPU. We benchmark standard quadratic attention against several sub-quadratic alternatives, including structured state-space and linear attention models. Our analysis reveals that while sub-quadratic methods offer superior scalability, they introduce distinct computational bottlenecks on the NPU's specialized execution units. We identify that quadratic attention becomes severely memory-bound, suffering from cache inefficiency and pipeline stalls exceeding 95% at long contexts. In contrast, sub-quadratic models can become compute-bound on programmable vector cores. These findings provide critical insights for the co-design of hardware-aware models and optimization strategies to enable on-device AI inference with long-contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及により、リソース制約されたエッジデバイスに対する長期のコンテキスト推論に対する需要が高まっている。
しかし、これらのモデルをNeural Processing Units (NPU)にデプロイすることは、アーキテクチャ上のミスマッチによる重要な課題である:標準注意機構の2次複雑さは、エッジアクセラレータのメモリと計算パターンに矛盾する。
本稿では,現代NPUにおける各種因果推論演算子の総合的性能解析について述べる。
我々は、構造化状態空間や線形アテンションモデルを含む、いくつかの準四進法に対する標準2次アテンションをベンチマークする。
解析の結果、サブクワッドラティック法はスケーラビリティに優れるが、NPUの特殊実行ユニットに異なる計算ボトルネックを導入することが明らかとなった。
キャッシュ不効率やパイプラインストールの長期化に苦しむ二次的注意がメモリバウンドを著しく上回っていることを確認した。
対照的に、サブクワッドラティックモデルはプログラム可能なベクトルコア上で計算バウンドとなる。
これらの発見は、ハードウェア対応モデルの共同設計と、長いコンテキストでデバイス上のAI推論を可能にする最適化戦略に重要な洞察を与える。
関連論文リスト
- Scaling LLM Test-Time Compute with Mobile NPU on Smartphones [18.50846535848905]
本稿では,移動型ニューラルプロセッシングユニット (NPU) が計算資源を過小評価していることを示す。
そこで本研究では,モバイルNPUに並列テスト時間スケーリング手法を適用し,小型LLMの性能を向上させることを提案する。
混合精度GEMMは19.0、ソフトマックスは2.2である。
論文 参考訳(メタデータ) (2025-09-27T14:17:46Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。