論文の概要: A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs
- arxiv url: http://arxiv.org/abs/2604.09752v2
- Date: Wed, 15 Apr 2026 03:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.361763
- Title: A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs
- Title(参考訳): A-IO: メモリバウンドNPUのための適応推論オーケストレーション
- Authors: Chen Zhang, Yan Ding, Haotian Wang, Chubo Liu, Keqin Li, Kenli Li,
- Abstract要約: 本研究では,単一サイズのモデルの静的展開によって生じるモデルスケーリングパラドックス'を明らかにする。
また、NPU計算グラフコンパイルにおいて、微細な投機的復号化(citeleviathan2023fast, chen2023speculative)のカーネルのオーバーヘッドも指摘している。
- 参考スコア(独自算出の注目度): 44.75970358018253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the deployment of Large Language Models (LLMs), the autoregressive decoding phase on heterogeneous NPU platforms (e.g., Ascend 910B) faces severe memory-bound challenges. This study reveals the ``Model Scaling Paradox'' caused by the static deployment of single-sized models. It also points out the kernel synchronization overhead of fine-grained speculative decoding \cite{leviathan2023fast, chen2023speculative} under NPU computational graph compilation, and the severe limitations of purely relying on micro-level acceleration algorithms like Prompt LookUp Decoding (PLD)
- Abstract(参考訳): LLM(Large Language Models)のデプロイ中、異種NPUプラットフォーム(Ascend 910Bなど)での自己回帰デコーディングフェーズは、深刻なメモリバウンドの課題に直面している。
本研究は,単一サイズのモデルの静的展開による‘Model Scaling Paradox’’を明らかにした。
また、NPU計算グラフコンパイルにおける微粒な投機的デコード \cite{leviathan2023fast, chen2023speculative} のカーネル同期オーバーヘッドや、Prompt LookUp Decoding (PLD)のようなマイクロレベル加速アルゴリズムに純粋に依存する厳しい制限も指摘している。
関連論文リスト
- Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference [29.72164316945472]
トランスフォーマーベースの大規模言語モデル (LLM) は、様々な現実世界のタスクにおいて顕著な性能を示している。
しかし、注意の2次複雑さと高精度操作のメモリ帯域幅制限のため、推論コストは禁断的に高いままである。
マイクロスケーリング浮動小数点(MXFP)データフォーマットを用いた低ビット混合注意カーネルを提案する。
論文 参考訳(メタデータ) (2026-04-05T03:56:21Z) - Towards Practical Lossless Neural Compression for LiDAR Point Clouds [84.36825469211375]
高精度な幾何学的詳細の極端に広い範囲は、効率的な文脈モデリングを妨げる。
私たちのフレームワークは2つの軽量モジュールで構成されています。
実験では、リアルタイムに競争力のある圧縮性能を示す。
論文 参考訳(メタデータ) (2026-03-26T10:02:07Z) - Context-Driven Performance Modeling for Causal Inference Operators on Neural Processing Units [0.06999740786886537]
大規模言語モデル(LLM)は、リソース制約されたエッジデバイスに対する長期のコンテキスト推論の需要を押し上げている。
ニューラル処理ユニット(NPU)にこれらのモデルをデプロイすると、アーキテクチャミスマッチによる重大な問題が発生する。
本稿では,現代NPUにおける各種因果推論演算子の総合的性能解析について述べる。
論文 参考訳(メタデータ) (2025-09-29T17:55:43Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - $\ell_0$-Regularized Quadratic Surface Support Vector Machines [0.0]
カーネルフリーの二次曲面支持ベクトルマシンは、カーネル関数に依存することなく非線形決定境界をモデル化する柔軟性により、近年注目を集めている。
本稿では,モデルパラメータに濃度制約を課すことにより,QSVMのスパース変種を提案する。
我々は,いくつかの実世界のデータセットに対するアプローチを検証し,高い分類性能を維持しながらオーバーフィッティングを低減できることを実証した。
論文 参考訳(メタデータ) (2025-01-20T04:26:34Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。