論文の概要: Pruning vs XNOR-Net: A Comprehensive Study on Deep Learning for Audio
Classification in Microcontrollers
- arxiv url: http://arxiv.org/abs/2108.06128v1
- Date: Fri, 13 Aug 2021 09:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 18:18:22.651729
- Title: Pruning vs XNOR-Net: A Comprehensive Study on Deep Learning for Audio
Classification in Microcontrollers
- Title(参考訳): Pruning vs XNOR-Net:マイクロコントローラにおける音声分類のためのディープラーニングに関する総合的研究
- Authors: Md Mohaimenuzzaman, Christoph Bergmeir, Bernd Meyer
- Abstract要約: マイクロコントローラにおけるエンドツーエンドの生音声分類のためのXNOR-Netを提案する。
XNORを用いた生音声分類は,少数のクラスに対して,通常の完全精度ネットワークに匹敵する性能を示す。
これらの知見は,標準ベンチマークを用いた生音声分類と画像分類の一致性を示す。
- 参考スコア(独自算出の注目度): 1.4502611532302039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning has celebrated resounding successes in many application areas
of relevance to the Internet-of-Things, for example, computer vision and
machine listening. To fully harness the power of deep leaning for the IoT,
these technologies must ultimately be brought directly to the edge. The obvious
challenge is that deep learning techniques can only be implemented on strictly
resource-constrained edge devices if the models are radically downsized. This
task relies on different model compression techniques, such as network pruning,
quantization and the recent advancement of XNOR-Net. This paper examines the
suitability of these techniques for audio classification in microcontrollers.
We present an XNOR-Net for end-to-end raw audio classification and a
comprehensive empirical study comparing this approach with
pruning-and-quantization methods. We show that raw audio classification with
XNOR yields comparable performance to regular full precision networks for small
numbers of classes while reducing memory requirements 32-fold and computation
requirements 58-fold. However, as the number of classes increases
significantly, performance degrades and pruning-and-quantization based
compression techniques take over as the preferred technique being able to
satisfy the same space constraints but requiring about 8x more computation. We
show that these insights are consistent between raw audio classification and
image classification using standard benchmark sets.To the best of our
knowledge, this is the first study applying XNOR to end-to-end audio
classification and evaluating it in the context of alternative techniques. All
code is publicly available on GitHub.
- Abstract(参考訳): Deep Learningは、コンピュータビジョンやマシンリスニングなど、インターネット・オブ・Thingsに関連する多くのアプリケーション分野において、大きな成功を祝っている。
IoTの深い傾きのパワーをフル活用するには、これらのテクノロジを最終的にエッジに直接持ち込む必要があります。
明らかな課題は、モデルが根本的に縮小された場合、ディープラーニング技術が厳密にリソース制約されたエッジデバイスにのみ実装可能であることだ。
このタスクは、ネットワークプルーニング、量子化、XNOR-Netの最近の進歩など、さまざまなモデル圧縮技術に依存している。
本稿では,マイクロコントローラの音声分類におけるこれらの手法の有効性について検討する。
本稿では、エンドツーエンドの生音声分類のためのXNOR-Netと、この手法をプルーニング・アンド・クァンタライズ法と比較した総合的な実証的研究について述べる。
XNORを用いた生音声分類は,メモリ要求を32倍に,計算要求を58倍に減らしながら,少数のクラスに対して通常の完全精度ネットワークに匹敵する性能を示す。
しかし、クラス数が大幅に増加するにつれて、性能低下とプルーニングと量子化に基づく圧縮技術が、同じ空間制約を満たすことができるが約8倍の計算を必要とする技術として好まれる。
これらの知見は,標準ベンチマークセットを用いた生音声分類と画像分類の整合性を示し,XNORをエンド・ツー・エンドの音声分類に適用し,代替手法の文脈で評価した最初の研究である。
すべてのコードはGitHubで公開されている。
関連論文リスト
- Convolutional Deep Kernel Machines [25.958907308877148]
最近の研究は、表現学習を維持するためにベイズニューラルネットワークのNNGP(Neural Network Gaussian Process)制限を変更している。
この修正された制限をディープ・ガウス・プロセスに適用すると、ディープ・カーネル・マシン(DKM)と呼ばれる実用的な学習アルゴリズムが得られる。
論文 参考訳(メタデータ) (2023-09-18T14:36:17Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Environmental Sound Classification on the Edge: Deep Acoustic Networks
for Extremely Resource-Constrained Devices [1.290382979353427]
ESC-50で最先端のパフォーマンスを実現するオーディオ分類のためのエッジソリューションを紹介します。
まず,ESC-10 と ESC-50 に上述の精度を実現する新しい音響分類アーキテクチャ ACDNet を導入する。
97.22%の小型化と97.28%のFLOP削減にもかかわらず、圧縮ネットワークはESC-50で82.90%の精度を達成し、最先端のものにとどまっている。
論文 参考訳(メタデータ) (2021-03-05T05:52:31Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - A Deep Neural Network for Audio Classification with a Classifier
Attention Mechanism [2.3204178451683264]
我々は、Audio-based Convolutional Neural Network (CAB-CNN)と呼ばれる新しいアテンションベースニューラルネットワークアーキテクチャを導入する。
このアルゴリズムは、単純な分類器のリストと、セレクタとしてアテンションメカニズムからなる、新しく設計されたアーキテクチャを使用する。
我々のアルゴリズムは最先端のアルゴリズムと比較して、選択したテストスコアに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2020-06-14T21:29:44Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。