論文の概要: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
- arxiv url: http://arxiv.org/abs/2209.15427v1
- Date: Thu, 29 Sep 2022 08:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:41:31.963664
- Title: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
- Title(参考訳): 実験用混合精度ニューラルネットワークのチューニング
- Authors: Fabian Tschopp
- Abstract要約: この作業は、メモリを節約し、推論速度を向上させるために、Caffeに新しいデータ型を追加する。
既存のモデルは、混合精度モードで強制的に実行できる。
メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has become a useful data analysis method, however mainstream
adaption in distributed computer software and embedded devices has been low so
far. Often, adding deep learning inference in mainstream applications and
devices requires new hardware with signal processors suited for convolutional
neural networks. This work adds new data types (quantized 16-bit and 8-bit
integer, 16-bit floating point) to Caffe in order to save memory and increase
inference speed on existing commodity graphics processors with OpenCL, common
in everyday devices. Existing models can be executed effortlessly in
mixed-precision mode. Additionally, we propose a variation of
mixture-of-experts to increase inference speed on AlexNet for image
classification. We managed to decrease memory usage up to 3.29x while
increasing inference speed up to 3.01x on certain devices. We demonstrate with
five simple examples how the presented techniques can easily be applied to
different machine learning problems. The whole pipeline, consisting of models,
example python scripts and modified Caffe library, is available as Open Source
software.
- Abstract(参考訳): ディープラーニングは有用なデータ解析手法となっているが、分散コンピュータソフトウェアや組み込みデバイスへの主流の適応は、これまでは低かった。
多くの場合、主流のアプリケーションやデバイスにディープラーニング推論を追加するには、畳み込みニューラルネットワークに適した信号プロセッサを備えた新しいハードウェアが必要である。
この作業はcaffeに新しいデータ型(量子化された16ビットと8ビット整数、16ビット浮動小数点)を追加し、メモリを節約し、既存のコモディティグラフィックスプロセッサの推論速度を向上させる。
既存のモデルは、混合精度モードで強制的に実行できる。
さらに,画像分類のためのアレクサネットの推論速度を向上させるために,エキスパートの混合物のバリエーションを提案する。
メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。
提案手法が異なる機械学習問題にどのように適用できるかを,5つの簡単な例で示す。
モデル、例えばpythonスクリプトと修正されたcaffeライブラリで構成されるパイプライン全体は、オープンソースソフトウェアとして利用可能である。
関連論文リスト
- INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - A learning-based approach to feature recognition of Engineering shapes [1.2691047660244335]
CADメッシュモデルにおける工学的形状の特徴を認識する機械学習手法を提案する。
Gaussマップの個別バージョンは、機能学習のシグネチャとして使用できる。
認識精度は3D畳み込みニューラルネットワーク(CNN)を用いて得られたものと非常によく似ている
論文 参考訳(メタデータ) (2021-12-15T08:35:18Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Quantization of Deep Neural Networks for Accumulator-constrained
Processors [2.8489574654566674]
本稿では,大規模な蓄積レジスタを持たないプラットフォームに対して,ニューラルネットワーク(ANN)量子化手法を提案する。
量子化問題をアキュムレータサイズの関数として定式化し、入力データと重みのビット幅を最大化することでモデルの精度を最大化する。
我々は,CIFAR-10およびILSVRC2012画像分類ベンチマークにおいて,浮動小数点ベースラインの1%以内の分類精度が得られることを示した。
論文 参考訳(メタデータ) (2020-04-24T14:47:14Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。