論文の概要: A neural prosody encoder for end-ro-end dialogue act classification
- arxiv url: http://arxiv.org/abs/2205.05590v1
- Date: Wed, 11 May 2022 16:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:59:23.222343
- Title: A neural prosody encoder for end-ro-end dialogue act classification
- Title(参考訳): 終末対話行動分類のためのニューラルプロソディエンコーダ
- Authors: Kai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Muller, Grant
P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo
- Abstract要約: 発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。
このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。
提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。
- 参考スコア(独自算出の注目度): 17.57811675596945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dialogue act classification (DAC) is a critical task for spoken language
understanding in dialogue systems. Prosodic features such as energy and pitch
have been shown to be useful for DAC. Despite their importance, little research
has explored neural approaches to integrate prosodic features into end-to-end
(E2E) DAC models which infer dialogue acts directly from audio signals. In this
work, we propose an E2E neural architecture that takes into account the need
for characterizing prosodic phenomena co-occurring at different levels inside
an utterance. A novel part of this architecture is a learnable gating mechanism
that assesses the importance of prosodic features and selectively retains core
information necessary for E2E DAC. Our proposed model improves DAC accuracy by
1.07% absolute across three publicly available benchmark datasets.
- Abstract(参考訳): 対話行動分類(DAC)は,対話システムにおける言語理解にとって重要な課題である。
エネルギーやピッチなどの韻律的特徴はDACに有用であることが示されている。
その重要性にもかかわらず、音声信号から直接対話を推論するエンドツーエンド(E2E)DACモデルに韻律的特徴を統合するためのニューラルアプローチについてはほとんど研究されていない。
本研究では,発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。
このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。
提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。
関連論文リスト
- Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - On-the-fly Feature Based Speaker Adaptation for Dysarthric and Elderly
Speech Recognition [59.585669933516996]
話者レベルの不均一性は、通常音声に見られるアクセントや性別に起因するものであり、話者間で大きな多様性を生み出す。
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たす。
本稿では,オンザフライ・ラピッド・スピーカー・アダプティブ・アプローチに基づく2種類の特徴量について検討する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework [5.1229352884025845]
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
論文 参考訳(メタデータ) (2021-11-06T02:08:13Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。