論文の概要: FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning
- arxiv url: http://arxiv.org/abs/2009.11394v1
- Date: Wed, 23 Sep 2020 21:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 17:03:42.494820
- Title: FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning
- Title(参考訳): FluentNet:ディープラーニングを用いた音声の終端検出
- Authors: Tedd Kourkounakis, Amirhossein Hajavi, Ali Etemad
- Abstract要約: 本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
- 参考スコア(独自算出の注目度): 23.13972240042859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strong presentation skills are valuable and sought-after in workplace and
classroom environments alike. Of the possible improvements to vocal
presentations, disfluencies and stutters in particular remain one of the most
common and prominent factors of someone's demonstration. Millions of people are
affected by stuttering and other speech disfluencies, with the majority of the
world having experienced mild stutters while communicating under stressful
conditions. While there has been much research in the field of automatic speech
recognition and language models, there lacks the sufficient body of work when
it comes to disfluency detection and recognition. To this end, we propose an
end-to-end deep neural network, FluentNet, capable of detecting a number of
different disfluency types. FluentNet consists of a Squeeze-and-Excitation
Residual convolutional neural network which facilitate the learning of strong
spectral frame-level representations, followed by a set of bidirectional long
short-term memory layers that aid in learning effective temporal relationships.
Lastly, FluentNet uses an attention mechanism to focus on the important parts
of speech to obtain a better performance. We perform a number of different
experiments, comparisons, and ablation studies to evaluate our model. Our model
achieves state-of-the-art results by outperforming other solutions in the field
on the publicly available UCLASS dataset. Additionally, we present
LibriStutter: a disfluency dataset based on the public LibriSpeech dataset with
synthesized stutters. We also evaluate FluentNet on this dataset, showing the
strong performance of our model versus a number of benchmark techniques.
- Abstract(参考訳): 強力なプレゼンテーションスキルは、職場や教室環境でも有用であり、追求されている。
音声によるプレゼンテーションの改善の可能性のうち、特に影響や混乱は、誰かのデモンストレーションで最も一般的で顕著な要素の1つである。
何百万人もの人々が、発声やその他の言語障害に影響を受けており、世界の大部分では、ストレスの多い環境下でコミュニケーション中に軽度の発声を経験している。
自動音声認識と言語モデルの分野では、多くの研究が行われてきたが、不整合の検出と認識に関して十分な作業が不足している。
そこで本研究では,複数の分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークと、効果的な時間的関係の学習を支援する双方向の長期記憶層で構成される。
最後に、FluentNetはアテンションメカニズムを使用して、音声の重要な部分に集中し、より良いパフォーマンスを得る。
モデルを評価するために,様々な実験,比較,アブレーションを行った。
本モデルは,一般公開されたUCLASSデータセットの分野における他のソリューションよりも優れた結果が得られる。
さらに、合成スタブ付きパブリックなLibriSpeechデータセットに基づく分散データセットであるLibriStutterを提案する。
また、このデータセット上でfluentnetを評価し、我々のモデルと多くのベンチマークテクニックの強力なパフォーマンスを示しています。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - SAFL: A Self-Attention Scene Text Recognizer with Focal Loss [4.462730814123762]
歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチのほとんどは、主に再発や畳み込みに基づくニューラルネットワークを利用している。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介する。
論文 参考訳(メタデータ) (2022-01-01T06:51:03Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for
Voice Activity Detection [30.46050153776374]
音声活動検出(VAD)は、音声と非音声を区別する。
ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。
本稿では,VADタスクを終了させるためにMLNETと呼ばれる適応型マルチレセプティブ・アテンション・ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:24:28Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。