Fugu-MT 論文翻訳(概要): Boosting DNN Cold Inference on Edge Devices

論文の概要: Boosting DNN Cold Inference on Edge Devices

arxiv url: http://arxiv.org/abs/2206.07446v2
Date: Sat, 26 Aug 2023 14:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 01:54:11.932919
Title: Boosting DNN Cold Inference on Edge Devices
Title（参考訳）: エッジデバイスにおけるdnnコールド推論の促進
Authors: Rongjie Yi, Ting Cao, Ao Zhou, Xiao Ma, Shangguang Wang, Mengwei Xu
Abstract要約: 我々は,コールド推論を最適化した最初のオンデバイス推論エンジンであるNNV12を提案する。 NNV12は3つの新しい最適化ノブの上に構築されている。エッジCPUとGPUの最先端DNNエンジンと比較して最大15.2倍、401.5倍を実現している。
参考スコア（独自算出の注目度）: 12.037337899128856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: DNNs are ubiquitous on edge devices nowadays. With its increasing importance and use cases, it's not likely to pack all DNNs into device memory and expect that each inference has been warmed up. Therefore, cold inference, the process to read, initialize, and execute a DNN model, is becoming commonplace and its performance is urgently demanded to be optimized. To this end, we present NNV12, the first on-device inference engine that optimizes for cold inference NNV12 is built atop 3 novel optimization knobs: selecting a proper kernel (implementation) for each DNN operator, bypassing the weights transformation process by caching the post-transformed weights on disk, and pipelined execution of many kernels on asymmetric processors. To tackle with the huge search space, NNV12 employs a heuristic-based scheme to obtain a near-optimal kernel scheduling plan. We fully implement a prototype of NNV12 and evaluate its performance across extensive experiments. It shows that NNV12 achieves up to 15.2x and 401.5x compared to the state-of-the-art DNN engines on edge CPUs and GPUs, respectively.
Abstract（参考訳）: 現在、DNNはエッジデバイス上でユビキタスである。重要性とユースケースの増大に伴い、すべてのDNNをデバイスメモリに詰め込んで、各推論がウォームアップされることを期待する可能性は低い。そのため,DNNモデルの読み出し,初期化,実行プロセスであるコールド推論が一般的になり,その性能の最適化が急務に求められている。そこで我々は,dnn演算子毎に適切なカーネル(実装)を選択すること,ディスク上の後変換重みをキャッシュすることで重み変換プロセスをバイパスすること,非対称プロセッサ上で多数のカーネルの実行をパイプライン化すること,という3つの新しい最適化ノブ上に,最初のオンデバイス推論エンジンであるnnv12を提案する。巨大な探索空間に対処するため、nnv12はヒューリスティックベースのスキームを採用し、最適に近いカーネルスケジューリング計画を得る。 NNV12のプロトタイプを完全実装し,その性能評価を行った。 NNV12は、それぞれエッジCPUとGPU上の最先端のDNNエンジンと比較して15.2xと401.5xに達する。

関連論文リスト

FlashRNN: I/O-Aware Optimization of Traditional RNNs on modern hardware [6.749483762719583]
状態追跡機能は、時系列タスクと論理的推論にとって重要である。 LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。我々は、Tritonのハードウェア最適化FlashRNNと、レジスタレベルに最適化されたカーネルで、これらのネットワークがどれだけ高速になるかを示す。
論文参考訳（メタデータ） (2024-12-10T18:50:37Z)
MaxK-GNN: Extremely Fast GPU Kernel Design for Accelerating Graph Neural Networks Training [7.193336207798203]
アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。実験により、マックスK-GNNシステムは、アムダールの法則に従って理論的なスピードアップ限界に接近できることが示された。我々はSOTA GNNに匹敵する精度を達成したが、Redditでは3.22/4.24倍のスピードアップ(理論上の限界vs, 5.52/7.27倍)を実現した。
論文参考訳（メタデータ） (2023-12-14T05:00:49Z)
INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。 4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文参考訳（メタデータ） (2023-06-10T08:39:16Z)
Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文参考訳（メタデータ） (2023-03-25T13:53:02Z)
An efficient and flexible inference system for serving heterogeneous ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。 DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文参考訳（メタデータ） (2022-08-30T08:05:43Z)
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。 SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文参考訳（メタデータ） (2021-10-18T11:30:29Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
Scaling Up Deep Neural Network Optimization for Edge Inference [20.9711130126031]
ディープニューラルネットワーク(DNN)は、携帯電話、ドローン、ロボット、ウェアラブルといったエッジデバイスにますますデプロイされ、統合されている。 DNN推論を直接エッジデバイス(エッジ推論)で実行するためには、DNN設計を最適化することが不可欠である。まず、プロキシデバイス上に構築された性能予測器を再利用し、性能単調性を利用してDNN最適化をスケールアップする。第2のアプローチでは、見積もりが可能なスケーラブルなパフォーマンス予測器を構築します。
論文参考訳（メタデータ） (2020-09-01T07:47:22Z)
Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。その結果, 直接使用法と比較して計算時間を2～5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文参考訳（メタデータ） (2020-02-04T20:00:28Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。