論文の概要: AutoNeural: Co-Designing Vision-Language Models for NPU Inference
- arxiv url: http://arxiv.org/abs/2512.02924v1
- Date: Tue, 02 Dec 2025 16:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.96957
- Title: AutoNeural: Co-Designing Vision-Language Models for NPU Inference
- Title(参考訳): AutoNeural: NPU推論のためのビジョンランゲージモデルの共同設計
- Authors: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang,
- Abstract要約: AutoNeuralは整数のみの推論のために設計されたNPUネイティブなVLMアーキテクチャである。
我々は、標準のViTエンコーダを、深く分離可能な畳み込みを利用したMobileNetV5スタイルのバックボーンに置き換える。
提案手法は,ビジョンエンコーダの量子化誤差を最大7倍,エンドツーエンドのレイテンシを従来のベースラインに比べて14倍削減する。
- 参考スコア(独自算出の注目度): 24.05617280495125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
- Abstract(参考訳): ニューラルネットワークユニット(NPU)はエッジAIに高い理論的効率を提供するが、最先端のVision-Language Models(VLM)はGPU用に設計されている。
このハードウェアモデルのミスマッチは、視覚変換器(ViT)の量子化脆度と、NPUの高い演算スループットを利用できない自己回帰的注意機構のI/Oバウンド特性の2つの要因に起因している。
このギャップを埋めるため、整数のみの推論のためにNPUネイティブなVLMアーキテクチャであるAutoNeuralを提案する。
我々は,標準の ViT エンコーダを MobileNetV5 スタイルのバックボーンに置き換え,安定な INT4/8/16 量子化のための有界な活性化分布を保証する。
これを補完する言語バックボーンは、状態空間モデル(SSM)の原則をトランスフォーマー層と統合し、効率的なゲート畳み込みを利用して線形時間複雑性を実現する。
このハイブリッド設計により、生成時のキーバリューキャッシングの重いメモリI/Oオーバーヘッドがなくなる。
提案手法は,ビジョンエンコーダの量子化誤差を最大7倍,エンドツーエンドのレイテンシを従来のベースラインに比べて14倍削減する。
AutoNeuralはまた、ベースラインよりも3倍のデコード速度と4倍のコンテキストウィンドウを提供する。
クアルコムSA8295P SoCの実際の自動車ケーススタディにより、コックピットアプリケーションのリアルタイム性能を実証し、これらの改善を検証した。
この結果から,NPU制約に特化してモデルトポロジを再考することが,堅牢なマルチモーダルエッジインテリジェンスのための前提条件であることが示唆された。
関連論文リスト
- Model-free front-to-end training of a large high performance laser neural network [0.0]
オフザシェルフコンポーネントを用いた完全自律並列光ニューラルネットワーク(ONN)を実演する。
我々のONNは高効率で、ネットワークサイズと推定帯域幅の両方で、GHzレンジに向けてスケーラブルです。
我々は,ハードウェアリソースの制限下であっても,ONNが高精度かつ収束効率を実現できることを示す。
論文 参考訳(メタデータ) (2025-03-21T08:43:02Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adversarially Robust and Explainable Model Compression with On-Device
Personalization for Text Classification [4.805959718658541]
モバイルデバイスのコンピューティング能力の増大とコンピュータビジョン(CV)と自然言語処理(NLP)のアプリケーション数の増加により、オンデバイスディープニューラルネットワーク(DNN)が最近注目を集めている。
NLPアプリケーションでは、モデル圧縮は最初は成功したが、少なくとも3つの大きな課題が解決されている: 対向的堅牢性、説明可能性、パーソナライゼーションである。
ここでは,モデル圧縮と対向ロバスト性のための新たなトレーニングスキームを設計し,説明可能な特徴マッピングの目的を最適化することによって,これらの課題に対処する。
得られた圧縮モデルは、細かなデバイス上でのプライベートトレーニングデータを用いてパーソナライズされる。
論文 参考訳(メタデータ) (2021-01-10T15:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。