論文の概要: Accelerating Multi-Model Inference by Merging DNNs of Different Weights
- arxiv url: http://arxiv.org/abs/2009.13062v1
- Date: Mon, 28 Sep 2020 04:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:07:29.005557
- Title: Accelerating Multi-Model Inference by Merging DNNs of Different Weights
- Title(参考訳): 重みの異なるdnnの融合によるマルチモデル推論の高速化
- Authors: Joo Seong Jeong, Soojeong Kim, Gyeong-In Yu, Yunseong Lee, Byung-Gon
Chun
- Abstract要約: 我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。
ResNet-50、ResNeXt-50、BERT、XLNetの実験によると、NetFuseはNVIDIA V100 GPUでDNN推論時間を最大3.6倍に高速化できる。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standardized DNN models that have been proved to perform well on machine
learning tasks are widely used and often adopted as-is to solve downstream
tasks, forming the transfer learning paradigm. However, when serving multiple
instances of such DNN models from a cluster of GPU servers, existing techniques
to improve GPU utilization such as batching are inapplicable because models
often do not share weights due to fine-tuning. We propose NetFuse, a technique
of merging multiple DNN models that share the same architecture but have
different weights and different inputs. NetFuse is made possible by replacing
operations with more general counterparts that allow a set of weights to be
associated with only a certain set of inputs. Experiments on ResNet-50,
ResNeXt-50, BERT, and XLNet show that NetFuse can speed up DNN inference time
up to 3.6x on a NVIDIA V100 GPU, and up to 3.0x on a TITAN Xp GPU when merging
32 model instances, while only using up a small additional amount of GPU
memory.
- Abstract(参考訳): 機械学習タスクでうまく機能することが証明された標準化されたDNNモデルは、下流タスクを解決するために広く使われ、しばしばas-isとして採用され、転送学習パラダイムを形成している。
しかし、GPUサーバのクラスタからこのようなDNNモデルの複数のインスタンスを提供する場合、バッチ処理のようなGPU利用を改善する既存の技術は適用不可能である。
我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。
NetFuseは、特定の入力セットのみに重みのセットを関連付ける、より一般的な操作に置き換えることによって実現されている。
ResNet-50、ResNeXt-50、BERT、XLNetの実験では、NetFuseは、GPU V100 GPUでDNN推論時間を最大3.6倍、32モデルインスタンスのマージ時にTITAN Xp GPUで最大3.0倍まで高速化でき、GPUメモリを少量しか使用できない。
関連論文リスト
- MatchNAS: Optimizing Edge AI in Sparse-Label Data Contexts via
Automating Deep Neural Network Porting for Mobile Deployment [54.77943671991863]
MatchNASはDeep Neural Networksをモバイルデバイスに移植するための新しいスキームである。
ラベル付きデータと非ラベル付きデータの両方を用いて、大規模なネットワークファミリを最適化する。
そして、さまざまなハードウェアプラットフォーム用に調整されたネットワークを自動的に検索する。
論文 参考訳(メタデータ) (2024-02-21T04:43:12Z) - DNNShifter: An Efficient DNN Pruning System for Edge Computing [1.853502789996996]
ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。
生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。
これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスのような、ネットワークの極端で運用するリソースにとっての課題である。
既存のプルーニング手法は、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できないか、オフラインのユースケースに限定される。
我々の研究は、原モデルの精度を維持しつつ、適切なモデル変種を迅速に導き出す。
論文 参考訳(メタデータ) (2023-09-13T14:05:50Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - Network Augmentation for Tiny Deep Learning [73.57192520534585]
ニューラルネットワークの性能向上のための新しいトレーニング手法であるNetAug(Net Aug)を紹介する。
画像分類と物体検出におけるNetAugの有効性を示す。
論文 参考訳(メタデータ) (2021-10-17T18:48:41Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling
on Heterogeneous Embedded Platforms [3.3197851873862385]
本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。
once-for-all network (OFA))
最新技術と比較して,Jetson Xavier NX を用いた実験結果から,この手法は ImageNet Top-1 の精度で 3.5 倍高速であることがわかった。
論文 参考訳(メタデータ) (2021-05-08T05:10:53Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Spatial Sharing of GPU for Autotuning DNN models [4.63732827131233]
ディープニューラルネットワーク(DNN)は、高性能GPUのフルパワーを活用する能力において、多種多様である。
本稿では,資源利用を最大化し,チューニング性能を向上させるための多くの手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T21:27:38Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。