論文の概要: Tiny Transformers for Environmental Sound Classification at the Edge
- arxiv url: http://arxiv.org/abs/2103.12157v1
- Date: Mon, 22 Mar 2021 20:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 04:41:35.420268
- Title: Tiny Transformers for Environmental Sound Classification at the Edge
- Title(参考訳): エッジ環境音分類のためのTiny Transformer
- Authors: David Elliott, Carlos E. Otero, Steven Wyatt, Evan Martino
- Abstract要約: 本研究は,エッジにおける環境音の分類分野における音響モデルの訓練手法を提案する。
具体的には、トランスフォーマーの設計とトレーニングを行い、オフィスのサウンドをオーディオクリップに分類します。
その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growth of the Internet of Things and the rise of Big Data, data
processing and machine learning applications are being moved to cheap and low
size, weight, and power (SWaP) devices at the edge, often in the form of mobile
phones, embedded systems, or microcontrollers. The field of Cyber-Physical
Measurements and Signature Intelligence (MASINT) makes use of these devices to
analyze and exploit data in ways not otherwise possible, which results in
increased data quality, increased security, and decreased bandwidth. However,
methods to train and deploy models at the edge are limited, and models with
sufficient accuracy are often too large for the edge device. Therefore, there
is a clear need for techniques to create efficient AI/ML at the edge. This work
presents training techniques for audio models in the field of environmental
sound classification at the edge. Specifically, we design and train
Transformers to classify office sounds in audio clips. Results show that a
BERT-based Transformer, trained on Mel spectrograms, can outperform a CNN using
99.85% fewer parameters. To achieve this result, we first tested several audio
feature extraction techniques designed for Transformers, using ESC-50 for
evaluation, along with various augmentations. Our final model outperforms the
state-of-the-art MFCC-based CNN on the office sounds dataset, using just over
6,000 parameters -- small enough to run on a microcontroller.
- Abstract(参考訳): モノのインターネットの成長とビッグデータの台頭により、データ処理と機械学習アプリケーションは、しばしば携帯電話、組み込みシステム、マイクロコントローラの形で、エッジにある安価で低サイズ、重量、電力(SWaP)デバイスに移行している。
サイバーフィジカル測定と署名インテリジェンス(masint)の分野は、これらのデバイスを使用してデータを他の方法では不可能に分析し活用し、データ品質の向上、セキュリティの強化、帯域幅の削減に繋がる。
しかし、エッジでモデルをトレーニングしデプロイする方法は限られており、十分な精度のモデルはエッジデバイスには大きすぎることが多い。
したがって、エッジで効率的なAI/MLを作成するためのテクニックが明らかに必要である。
本研究は,エッジ環境音分類分野における音響モデルの訓練手法を提案する。
具体的には、オフィス音を音声クリップで分類するためにトランスフォーマーを設計し、訓練する。
その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。
この結果を達成するため,我々はesc-50を用いてトランスフォーマー用に設計した音響特徴抽出手法を,様々な拡張とともにテストした。
最終的なモデルは、mfccベースのcnn on the office soundsデータセットを上回っており、わずか6,000以上のパラメーターを使って、マイクロコントローラで実行できます。
関連論文リスト
- A lightweight residual network for unsupervised deformable image registration [2.7309692684728617]
本稿では, 並列拡張畳み込みブロックを組み込んだ残差U-Netを提案する。
本手法は患者間およびアトラスに基づくデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-14T07:20:49Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。