論文の概要: Listen with Intent: Improving Speech Recognition with Audio-to-Intent
Front-End
- arxiv url: http://arxiv.org/abs/2105.07071v1
- Date: Fri, 14 May 2021 21:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:34:57.919823
- Title: Listen with Intent: Improving Speech Recognition with Audio-to-Intent
Front-End
- Title(参考訳): listen with intent: 音声から意図へのフロントエンドによる音声認識の改善
- Authors: Swayambhu Nath Ray, Minhua Wu, Anirudh Raju, Pegah Ghahremani,
Raghavendra Bilgi, Milind Rao, Harish Arsikere, Ariya Rastrow, Andreas
Stolcke, Jasha Droppo
- Abstract要約: 反復ニューラルネットワークトランスデューサに基づく自動音声認識システムを改善するために,意図表現を付加情報として明示的に組み込むことの影響を検討する。
実験の結果,発話全体から意図表現を抽出し,最初からRNN-T検索をバイアスする非ストリーミングモードでシステムを実行する場合,相対単語誤り率(WERR)が5.56%低下することがわかった。
ストリーミングシステムのより詳細な分析により,提案手法がメディア再生関連意図に特に有益であることを示す。
- 参考スコア(独自算出の注目度): 26.418768063117767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending the overall intent of an utterance helps a listener recognize
the individual words spoken. Inspired by this fact, we perform a novel study of
the impact of explicitly incorporating intent representations as additional
information to improve a recurrent neural network-transducer (RNN-T) based
automatic speech recognition (ASR) system. An audio-to-intent (A2I) model
encodes the intent of the utterance in the form of embeddings or posteriors,
and these are used as auxiliary inputs for RNN-T training and inference.
Experimenting with a 50k-hour far-field English speech corpus, this study shows
that when running the system in non-streaming mode, where intent representation
is extracted from the entire utterance and then used to bias streaming RNN-T
search from the start, it provides a 5.56% relative word error rate reduction
(WERR). On the other hand, a streaming system using per-frame intent posteriors
as extra inputs for the RNN-T ASR system yields a 3.33% relative WERR. A
further detailed analysis of the streaming system indicates that our proposed
method brings especially good gain on media-playing related intents (e.g. 9.12%
relative WERR on PlayMusicIntent).
- Abstract(参考訳): 発話の全体的な意図を補完することは、聴取者が個々の単語を認識するのに役立つ。
この事実に触発されて,recurrent neural network-transducer (rnn-t) に基づく自動音声認識 (asr) システムを改善するために,インテント表現を付加情報として明示的に組み込むことが与える影響について,新たな研究を行った。
audio-to-intent(a2i)モデルは、発話の意図を埋め込みまたは後方の形でエンコードし、これらはrnn-tトレーニングおよび推論の補助入力として使用される。
本研究は,50k時間遠距離英語音声コーパスを用いて,発話全体から意図表現を抽出し,最初からRNN-T検索をバイアスに用いた非ストリーミングモードでシステムを実行する場合,相対単語誤り率を5.56%削減することを示した。
一方、RNN-T ASRシステムの追加入力としてフレーム単位のインテント後部を用いるストリーミングシステムは、3.33%の相対WERRが得られる。
ストリーミングシステムのより詳細な分析により,提案手法がメディア再生関連意図(例)に特に有益であることを示す。
PlayMusicIntentのWERR比9.12%)。
関連論文リスト
- Improving RNN-Transducers with Acoustic LookAhead [32.19475947986392]
RNN-Transducers (RNN-Ts) は音声からテキストへの変換のためのエンドツーエンドモデルとして広く受け入れられている。
未来を先取りしてテキスト表現をより音響的に基礎づけるLookAheadを提案する。
論文 参考訳(メタデータ) (2023-07-11T03:57:00Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Employing Hybrid Deep Neural Networks on Dari Speech [0.0]
本稿では,Mel- frequency cepstral coefficients (MFCCs) 特徴抽出法を用いて,Dari言語における個々の単語の認識に焦点を当てる。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)の3つの異なるディープニューラルネットワークモデルを評価する。
論文 参考訳(メタデータ) (2023-05-04T23:10:53Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。