論文の概要: QoS-Nets: Adaptive Approximate Neural Network Inference
- arxiv url: http://arxiv.org/abs/2410.07762v1
- Date: Thu, 10 Oct 2024 09:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:06:11.523579
- Title: QoS-Nets: Adaptive Approximate Neural Network Inference
- Title(参考訳): QoS-Nets: 適応近似ニューラルネットワーク推論
- Authors: Elias Trommer, Bernd Waschneck, Akash Kumar,
- Abstract要約: ニューラルネットワークアプリケーションの実行時の演算リソース消費を変動させるため、近似乗算器の柔軟な再利用を提案する。
本稿では,より広い検索空間からユーザ定義サイズの近似乗算器の適切なサブセットを選択する検索アルゴリズムを提案する。
従来の手法とは異なり、我々の手法は1つ以上の静的な近似乗算器インスタンスの層への割り当てを出力できる。
- 参考スコア(独自算出の注目度): 1.2325937189402068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to vary the arithmetic resource consumption of neural network applications at runtime, this work proposes the flexible reuse of approximate multipliers for neural network layer computations. We introduce a search algorithm that chooses an appropriate subset of approximate multipliers of a user-defined size from a larger search space and enables retraining to maximize task performance. Unlike previous work, our approach can output more than a single, static assignment of approximate multiplier instances to layers. These different operating points allow a system to gradually adapt its Quality of Service (QoS) to changing environmental conditions by increasing or decreasing its accuracy and resource consumption. QoS-Nets achieves this by reassigning the selected approximate multiplier instances to layers at runtime. To combine multiple operating points with the use of retraining, we propose a fine-tuning scheme that shares the majority of parameters between operating points, with only a small amount of additional parameters required per operating point. In our evaluation on MobileNetV2, QoS-Nets is used to select four approximate multiplier instances for three different operating points. These operating points result in power savings for multiplications between 15.3% and 42.8% at a Top-5 accuracy loss between 0.3 and 2.33 percentage points. Through our fine-tuning scheme, all three operating points only increase the model's parameter count by only 2.75%.
- Abstract(参考訳): ニューラルネットワークアプリケーションの実行時の演算リソース消費を変動させるため、ニューラルネットワーク層計算のための近似乗算器の柔軟な再利用を提案する。
本稿では,より広い検索空間からユーザ定義サイズの近似乗算器の適切なサブセットを選択し,タスク性能を最大化するための再学習を可能にする検索アルゴリズムを提案する。
従来の手法とは異なり、我々の手法は1つ以上の静的な近似乗算器インスタンスの層への割り当てを出力できる。
これらの異なる運用ポイントにより、システムは、品質・オブ・サービス(QoS)を、その正確さとリソース消費を増大または減少させることで、環境条件の変更に徐々に適応することができる。
QoS-Netsは、選択した近似乗算器インスタンスを実行時にレイヤに割り当てることで、これを実現している。
複数個の操作点と再訓練を併用するために,操作点間のパラメータの大部分を,操作点毎に必要となるパラメータの少なさで共有する微調整方式を提案する。
MobileNetV2の評価において、QoS-Netsは3つの異なる演算点に対して4つの近似乗算器インスタンスを選択するのに使用される。
これらの操作ポイントは15.3%から42.8%の乗算で、トップ5の精度損失は0.3から2.33ポイントである。
微調整方式により、3つの操作点全てがモデルのパラメータ数をわずか2.75%だけ増加させる。
関連論文リスト
- Complexity-Aware Training of Deep Neural Networks for Optimal Structure Discovery [0.0]
本稿では、トレーニング中に、トレーニング済みのネットワークを適用することなく機能するディープニューラルネットワークのユニット/フィルタとレイヤプルーニングを組み合わせた新しいアルゴリズムを提案する。
提案アルゴリズムは,3つのパラメータのみを用いて,層対単位/フィルタプルーニングと計算量対パラメータ複雑性のバランスを保ちながら,学習精度とプルーニングレベルを最適に交換する。
論文 参考訳(メタデータ) (2024-11-14T02:00:22Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T18:48:56Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D
Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。
グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文 参考訳(メタデータ) (2020-12-29T20:16:37Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。