論文の概要: MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for
Voice Activity Detection
- arxiv url: http://arxiv.org/abs/2008.05650v1
- Date: Thu, 13 Aug 2020 02:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 00:08:13.164416
- Title: MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for
Voice Activity Detection
- Title(参考訳): MLNET:音声活動検出のための適応型多重受容野注意ニューラルネットワーク
- Authors: Zhenpeng Zheng, Jianzong Wang, Ning Cheng, Jian Luo, Jing Xiao
- Abstract要約: 音声活動検出(VAD)は、音声と非音声を区別する。
ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。
本稿では,VADタスクを終了させるためにMLNETと呼ばれる適応型マルチレセプティブ・アテンション・ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 30.46050153776374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice activity detection (VAD) makes a distinction between speech and
non-speech and its performance is of crucial importance for speech based
services. Recently, deep neural network (DNN)-based VADs have achieved better
performance than conventional signal processing methods. The existed DNNbased
models always handcrafted a fixed window to make use of the contextual speech
information to improve the performance of VAD. However, the fixed window of
contextual speech information can't handle various unpredicatable noise
environments and highlight the critical speech information to VAD task. In
order to solve this problem, this paper proposed an adaptive multiple
receptive-field attention neural network, called MLNET, to finish VAD task. The
MLNET leveraged multi-branches to extract multiple contextual speech
information and investigated an effective attention block to weight the most
crucial parts of the context for final classification. Experiments in
real-world scenarios demonstrated that the proposed MLNET-based model
outperformed other baselines.
- Abstract(参考訳): 音声活動検出(VAD)は音声と非音声を区別し,その性能は音声ベースのサービスにとって重要である。
近年、ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。
既存のDNNベースのモデルは、常に固定ウィンドウを手作りして、VADの性能を改善するためにコンテキスト音声情報を利用する。
しかし、コンテキスト音声情報の固定窓は、様々な難解な雑音環境を処理できず、vadタスクに重要な音声情報を強調する。
この問題を解決するために,MLNETと呼ばれる適応型多重受容野アテンションニューラルネットワークを提案し,VADタスクを終了させた。
mlnetはマルチブランチを利用して複数の文脈音声情報を抽出し、最終的な分類のためにコンテキストの最も重要な部分を重み付ける効果的な注意ブロックを調査した。
実世界のシナリオでの実験では、提案されたMLNETベースのモデルが他のベースラインよりも優れていた。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。