論文の概要: WaDeNet: Wavelet Decomposition based CNN for Speech Processing
- arxiv url: http://arxiv.org/abs/2011.05594v1
- Date: Wed, 11 Nov 2020 06:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:50:38.961472
- Title: WaDeNet: Wavelet Decomposition based CNN for Speech Processing
- Title(参考訳): WaDeNet: ウェーブレット分解に基づく音声処理用CNN
- Authors: Prithvi Suresh and Abhijith Ragav
- Abstract要約: WaDeNetは、モバイル音声処理のためのエンドツーエンドモデルである。
WaDeNetは、アーキテクチャ内に音声信号のウェーブレット分解を埋め込む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing speech processing systems consist of different modules, individually
optimized for a specific task such as acoustic modelling or feature extraction.
In addition to not assuring optimality of the system, the disjoint nature of
current speech processing systems make them unsuitable for ubiquitous health
applications. We propose WaDeNet, an end-to-end model for mobile speech
processing. In order to incorporate spectral features, WaDeNet embeds wavelet
decomposition of the speech signal within the architecture. This allows WaDeNet
to learn from spectral features in an end-to-end manner, thus alleviating the
need for feature extraction and successive modules that are currently present
in speech processing systems. WaDeNet outperforms the current state of the art
in datasets that involve speech for mobile health applications such as
non-invasive emotion recognition. WaDeNet achieves an average increase in
accuracy of 6.36% when compared to the existing state of the art models.
Additionally, WaDeNet is considerably lighter than a simple CNNs with a similar
architecture.
- Abstract(参考訳): 既存の音声処理システムは異なるモジュールで構成されており、音響モデリングや特徴抽出などの特定のタスクに個別に最適化されている。
システムの最適性を保証することに加えて、現在の音声処理システムの不整合性は、ユビキタスヘルスアプリケーションには適さない。
モバイル音声処理のためのエンドツーエンドモデルWaDeNetを提案する。
スペクトルの特徴を組み込むため、wadenetはアーキテクチャ内に音声信号のウェーブレット分解を組み込む。
これにより、WaDeNetはスペクトル特徴をエンドツーエンドで学習し、現在音声処理システムに存在している特徴抽出や連続的なモジュールの必要性を軽減することができる。
wadenetは、非侵襲的な感情認識のようなモバイルヘルスアプリケーションのための音声を含むデータセットの現在の技術を上回る。
WaDeNetは、既存のアートモデルと比較して平均6.36%の精度向上を実現している。
加えて、WaDeNetは同様のアーキテクチャを持つ単純なCNNよりもかなり軽量である。
関連論文リスト
- TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down
Fusion [21.278294846228935]
Top-Down-Fusion Net (TDFNet) は、音声・視覚音声分離のための最先端(SOTA)モデルである。
TDFNetは、以前のSOTAメソッドであるCTCNetと比較して、すべてのパフォーマンス指標で最大10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-01-25T13:47:22Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Shennong: a Python toolbox for audio speech features extraction [15.816237141746562]
ShennongはPythonのツールボックスであり、音声特徴抽出のためのコマンドラインユーティリティである。
スペクトル時間フィルタ、事前訓練されたニューラルネットワーク、ピッチ推定器、話者正規化方法など、幅広い確立された最先端技術アルゴリズムを実装している。
本稿では,携帯電話の識別タスクにおける音声特徴量の比較,訓練に使用する音声時間関数としての声道長正規化モデルの解析,様々な雑音条件下でのピッチ推定アルゴリズムの比較の3つの応用について述べる。
論文 参考訳(メタデータ) (2021-12-10T14:08:52Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for
Voice Activity Detection [30.46050153776374]
音声活動検出(VAD)は、音声と非音声を区別する。
ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。
本稿では,VADタスクを終了させるためにMLNETと呼ばれる適応型マルチレセプティブ・アテンション・ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。