論文の概要: DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data
- arxiv url: http://arxiv.org/abs/2104.11629v1
- Date: Fri, 23 Apr 2021 14:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:52:22.019614
- Title: DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data
- Title(参考訳): DeepSpectrumLite: 分散データからの組込み音声とオーディオ処理のための高効率トランスファー学習フレームワーク
- Authors: Shahin Amiriparian (1), Tobias H\"ubner (1), Maurice Gerczuk (1),
Sandra Ottl (1), Bj\"orn W. Schuller (1,2) ((1) EIHW -- Chair of Embedded
Intelligence for Health Care and Wellbeing, University of Augsburg, Germany,
(2) GLAM -- Group on Language, Audio, and Music, Imperial College London, UK)
- Abstract要約: DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。
このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。
DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural speech and audio processing systems have a large number of
trainable parameters, a relatively complex architecture, and require a vast
amount of training data and computational power. These constraints make it more
challenging to integrate such systems into embedded devices and utilise them
for real-time, real-world applications. We tackle these limitations by
introducing DeepSpectrumLite, an open-source, lightweight transfer learning
framework for on-device speech and audio recognition using pre-trained image
convolutional neural networks (CNNs). The framework creates and augments
Mel-spectrogram plots on-the-fly from raw audio signals which are then used to
finetune specific pre-trained CNNs for the target classification task.
Subsequently, the whole pipeline can be run in real-time with a mean inference
lag of 242.0 ms when a DenseNet121 model is used on a consumer-grade Motorola
moto e7 plus smartphone. DeepSpectrumLite operates decentralised, eliminating
the need for data upload for further processing. By obtaining state-of-the-art
results on a set of paralinguistics tasks, we demonstrate the suitability of
the proposed transfer learning approach for embedded audio signal processing,
even when data is scarce. We provide an extensive command-line interface for
users and developers which is comprehensively documented and publicly available
at https://github.com/DeepSpectrum/DeepSpectrumLite.
- Abstract(参考訳): ディープニューラルネットワークとオーディオ処理システムは、多くのトレーニング可能なパラメータを持ち、比較的複雑なアーキテクチャを持ち、膨大なトレーニングデータと計算能力を必要とする。
これらの制約により、そのようなシステムを組み込みデバイスに統合し、リアルタイムで現実世界のアプリケーションに利用することがより困難になる。
画像畳み込みニューラルネットワーク(cnns)を用いた,デバイス上での音声および音声認識のための,オープンソースの軽量トランスファー学習フレームワークであるdeepspectrumliteを導入することで,これらの制限に対処した。
このフレームワークは、Mel-spectrogramプロットを生音声信号からオンザフライで作成、拡張し、ターゲット分類タスクのために特定のトレーニング済みCNNを微調整する。
その後、DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
DeepSpectrumLiteは分散処理で動作し、さらなる処理のためにデータアップロードを不要にする。
パラ言語的タスクの集合に対する最先端結果を得ることにより,データが少ない場合でも,組込み音声信号処理における伝達学習手法の適合性を実証する。
ユーザと開発者にとって広範なコマンドラインインターフェースを提供しており、https://github.com/DeepSpectrum/DeepSpectrumLite.comで公開されています。
関連論文リスト
- Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。