論文の概要: End-to-end speech-to-dialog-act recognition
- arxiv url: http://arxiv.org/abs/2004.11419v2
- Date: Tue, 28 Jul 2020 22:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 10:04:23.634923
- Title: End-to-end speech-to-dialog-act recognition
- Title(参考訳): エンドツーエンド音声認識
- Authors: Viet-Trung Dang, Tianyu Zhao, Sei Ueno, Hirofumi Inaguma, Tatsuya
Kawahara
- Abstract要約: 本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
- 参考スコア(独自算出の注目度): 38.58540444573232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding, which extracts intents and/or semantic
concepts in utterances, is conventionally formulated as a post-processing of
automatic speech recognition. It is usually trained with oracle transcripts,
but needs to deal with errors by ASR. Moreover, there are acoustic features
which are related with intents but not represented with the transcripts. In
this paper, we present an end-to-end model which directly converts speech into
dialog acts without the deterministic transcription process. In the proposed
model, the dialog act recognition network is conjunct with an acoustic-to-word
ASR model at its latent layer before the softmax layer, which provides a
distributed representation of word-level ASR decoding information. Then, the
entire network is fine-tuned in an end-to-end manner. This allows for stable
training as well as robustness against ASR errors. The model is further
extended to conduct DA segmentation jointly. Evaluations with the Switchboard
corpus demonstrate that the proposed method significantly improves dialog act
recognition accuracy from the conventional pipeline framework.
- Abstract(参考訳): 発話における意図や意味概念を抽出する音声言語理解は,従来の音声認識の後処理として定式化されている。
通常はオラクル文字で訓練されるが、ASRでエラーに対処する必要がある。
また、意図と関係があるが、本文では表現されない音響的特徴がある。
本稿では,決定論的書き起こし過程を伴わずに音声を対話的動作に変換するエンド・ツー・エンドモデルを提案する。
提案モデルでは,単語レベルASR復号情報の分散表現を提供するソフトマックス層より前の潜在層において,対話行動認識ネットワークを音響対単語ASRモデルと結合する。
そして、ネットワーク全体がエンドツーエンドで微調整される。
これにより、安定したトレーニングと、ASRエラーに対する堅牢性が可能になる。
モデルはさらに拡張され、DAセグメンテーションが共同で実行される。
Switchboard corpus を用いた評価では,従来のパイプラインフレームワークからダイアログの動作認識精度を大幅に向上することが示された。
関連論文リスト
- Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。