論文の概要: A neural prosody encoder for end-ro-end dialogue act classification
- arxiv url: http://arxiv.org/abs/2205.05590v1
- Date: Wed, 11 May 2022 16:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:59:23.222343
- Title: A neural prosody encoder for end-ro-end dialogue act classification
- Title(参考訳): 終末対話行動分類のためのニューラルプロソディエンコーダ
- Authors: Kai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Muller, Grant
P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo
- Abstract要約: 発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。
このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。
提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。
- 参考スコア(独自算出の注目度): 17.57811675596945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dialogue act classification (DAC) is a critical task for spoken language
understanding in dialogue systems. Prosodic features such as energy and pitch
have been shown to be useful for DAC. Despite their importance, little research
has explored neural approaches to integrate prosodic features into end-to-end
(E2E) DAC models which infer dialogue acts directly from audio signals. In this
work, we propose an E2E neural architecture that takes into account the need
for characterizing prosodic phenomena co-occurring at different levels inside
an utterance. A novel part of this architecture is a learnable gating mechanism
that assesses the importance of prosodic features and selectively retains core
information necessary for E2E DAC. Our proposed model improves DAC accuracy by
1.07% absolute across three publicly available benchmark datasets.
- Abstract(参考訳): 対話行動分類(DAC)は,対話システムにおける言語理解にとって重要な課題である。
エネルギーやピッチなどの韻律的特徴はDACに有用であることが示されている。
その重要性にもかかわらず、音声信号から直接対話を推論するエンドツーエンド(E2E)DACモデルに韻律的特徴を統合するためのニューラルアプローチについてはほとんど研究されていない。
本研究では,発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。
このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。
提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Conversational Semantic Role Labeling with Predicate-Oriented Latent
Graph [40.43625257213158]
本稿では,述語中心のガウス機構を持つ述語指向潜在グラフ(POLar)を自動生成する。
POLar構造は動的に切断され、タスクニーズに最適なように洗練される。
さらに,対話レベルの事前学習型言語モデルであるCoDiaBERTを導入し,複数の発話文のサポートを向上する。
論文 参考訳(メタデータ) (2022-10-06T16:42:00Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework [5.1229352884025845]
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
論文 参考訳(メタデータ) (2021-11-06T02:08:13Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。