論文の概要: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
- arxiv url: http://arxiv.org/abs/2209.15427v1
- Date: Thu, 29 Sep 2022 08:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:41:31.963664
- Title: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
- Title(参考訳): 実験用混合精度ニューラルネットワークのチューニング
- Authors: Fabian Tschopp
- Abstract要約: この作業は、メモリを節約し、推論速度を向上させるために、Caffeに新しいデータ型を追加する。
既存のモデルは、混合精度モードで強制的に実行できる。
メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has become a useful data analysis method, however mainstream
adaption in distributed computer software and embedded devices has been low so
far. Often, adding deep learning inference in mainstream applications and
devices requires new hardware with signal processors suited for convolutional
neural networks. This work adds new data types (quantized 16-bit and 8-bit
integer, 16-bit floating point) to Caffe in order to save memory and increase
inference speed on existing commodity graphics processors with OpenCL, common
in everyday devices. Existing models can be executed effortlessly in
mixed-precision mode. Additionally, we propose a variation of
mixture-of-experts to increase inference speed on AlexNet for image
classification. We managed to decrease memory usage up to 3.29x while
increasing inference speed up to 3.01x on certain devices. We demonstrate with
five simple examples how the presented techniques can easily be applied to
different machine learning problems. The whole pipeline, consisting of models,
example python scripts and modified Caffe library, is available as Open Source
software.
- Abstract(参考訳): ディープラーニングは有用なデータ解析手法となっているが、分散コンピュータソフトウェアや組み込みデバイスへの主流の適応は、これまでは低かった。
多くの場合、主流のアプリケーションやデバイスにディープラーニング推論を追加するには、畳み込みニューラルネットワークに適した信号プロセッサを備えた新しいハードウェアが必要である。
この作業はcaffeに新しいデータ型(量子化された16ビットと8ビット整数、16ビット浮動小数点)を追加し、メモリを節約し、既存のコモディティグラフィックスプロセッサの推論速度を向上させる。
既存のモデルは、混合精度モードで強制的に実行できる。
さらに,画像分類のためのアレクサネットの推論速度を向上させるために,エキスパートの混合物のバリエーションを提案する。
メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。
提案手法が異なる機械学習問題にどのように適用できるかを,5つの簡単な例で示す。
モデル、例えばpythonスクリプトと修正されたcaffeライブラリで構成されるパイプライン全体は、オープンソースソフトウェアとして利用可能である。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - A learning-based approach to feature recognition of Engineering shapes [1.2691047660244335]
CADメッシュモデルにおける工学的形状の特徴を認識する機械学習手法を提案する。
Gaussマップの個別バージョンは、機能学習のシグネチャとして使用できる。
認識精度は3D畳み込みニューラルネットワーク(CNN)を用いて得られたものと非常によく似ている
論文 参考訳(メタデータ) (2021-12-15T08:35:18Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。