Fugu-MT 論文翻訳(概要): Tuning of Mixture-of-Experts Mixed-Precision Neural Networks

論文の概要: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks

arxiv url: http://arxiv.org/abs/2209.15427v1
Date: Thu, 29 Sep 2022 08:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 14:41:31.963664
Title: Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
Title（参考訳）: 実験用混合精度ニューラルネットワークのチューニング
Authors: Fabian Tschopp
Abstract要約: この作業は、メモリを節約し、推論速度を向上させるために、Caffeに新しいデータ型を追加する。既存のモデルは、混合精度モードで強制的に実行できる。メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。
参考スコア（独自算出の注目度）: 0.571097144710995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning has become a useful data analysis method, however mainstream adaption in distributed computer software and embedded devices has been low so far. Often, adding deep learning inference in mainstream applications and devices requires new hardware with signal processors suited for convolutional neural networks. This work adds new data types (quantized 16-bit and 8-bit integer, 16-bit floating point) to Caffe in order to save memory and increase inference speed on existing commodity graphics processors with OpenCL, common in everyday devices. Existing models can be executed effortlessly in mixed-precision mode. Additionally, we propose a variation of mixture-of-experts to increase inference speed on AlexNet for image classification. We managed to decrease memory usage up to 3.29x while increasing inference speed up to 3.01x on certain devices. We demonstrate with five simple examples how the presented techniques can easily be applied to different machine learning problems. The whole pipeline, consisting of models, example python scripts and modified Caffe library, is available as Open Source software.
Abstract（参考訳）: ディープラーニングは有用なデータ解析手法となっているが、分散コンピュータソフトウェアや組み込みデバイスへの主流の適応は、これまでは低かった。多くの場合、主流のアプリケーションやデバイスにディープラーニング推論を追加するには、畳み込みニューラルネットワークに適した信号プロセッサを備えた新しいハードウェアが必要である。この作業はcaffeに新しいデータ型(量子化された16ビットと8ビット整数、16ビット浮動小数点)を追加し、メモリを節約し、既存のコモディティグラフィックスプロセッサの推論速度を向上させる。既存のモデルは、混合精度モードで強制的に実行できる。さらに,画像分類のためのアレクサネットの推論速度を向上させるために,エキスパートの混合物のバリエーションを提案する。メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。提案手法が異なる機械学習問題にどのように適用できるかを,5つの簡単な例で示す。モデル、例えばpythonスクリプトと修正されたcaffeライブラリで構成されるパイプライン全体は、オープンソースソフトウェアとして利用可能である。

関連論文リスト

Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文参考訳（メタデータ） (2024-07-12T17:37:49Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
ZippyPoint: Fast Interest Point Detection, Description, and Matching through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文参考訳（メタデータ） (2022-03-07T18:59:03Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
A learning-based approach to feature recognition of Engineering shapes [1.2691047660244335]
CADメッシュモデルにおける工学的形状の特徴を認識する機械学習手法を提案する。 Gaussマップの個別バージョンは、機能学習のシグネチャとして使用できる。認識精度は3D畳み込みニューラルネットワーク(CNN)を用いて得られたものと非常によく似ている
論文参考訳（メタデータ） (2021-12-15T08:35:18Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文参考訳（メタデータ） (2020-12-31T18:48:58Z)
Quantization of Deep Neural Networks for Accumulator-constrained Processors [2.8489574654566674]
本稿では,大規模な蓄積レジスタを持たないプラットフォームに対して,ニューラルネットワーク(ANN)量子化手法を提案する。量子化問題をアキュムレータサイズの関数として定式化し、入力データと重みのビット幅を最大化することでモデルの精度を最大化する。我々は,CIFAR-10およびILSVRC2012画像分類ベンチマークにおいて,浮動小数点ベースラインの1%以内の分類精度が得られることを示した。
論文参考訳（メタデータ） (2020-04-24T14:47:14Z)
Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文参考訳（メタデータ） (2020-02-20T12:07:44Z)
Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文参考訳（メタデータ） (2020-02-20T11:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。