論文の概要: End-to-end speech-to-dialog-act recognition
- arxiv url: http://arxiv.org/abs/2004.11419v2
- Date: Tue, 28 Jul 2020 22:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 10:04:23.634923
- Title: End-to-end speech-to-dialog-act recognition
- Title(参考訳): エンドツーエンド音声認識
- Authors: Viet-Trung Dang, Tianyu Zhao, Sei Ueno, Hirofumi Inaguma, Tatsuya
Kawahara
- Abstract要約: 本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
- 参考スコア(独自算出の注目度): 38.58540444573232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding, which extracts intents and/or semantic
concepts in utterances, is conventionally formulated as a post-processing of
automatic speech recognition. It is usually trained with oracle transcripts,
but needs to deal with errors by ASR. Moreover, there are acoustic features
which are related with intents but not represented with the transcripts. In
this paper, we present an end-to-end model which directly converts speech into
dialog acts without the deterministic transcription process. In the proposed
model, the dialog act recognition network is conjunct with an acoustic-to-word
ASR model at its latent layer before the softmax layer, which provides a
distributed representation of word-level ASR decoding information. Then, the
entire network is fine-tuned in an end-to-end manner. This allows for stable
training as well as robustness against ASR errors. The model is further
extended to conduct DA segmentation jointly. Evaluations with the Switchboard
corpus demonstrate that the proposed method significantly improves dialog act
recognition accuracy from the conventional pipeline framework.
- Abstract(参考訳): 発話における意図や意味概念を抽出する音声言語理解は,従来の音声認識の後処理として定式化されている。
通常はオラクル文字で訓練されるが、ASRでエラーに対処する必要がある。
また、意図と関係があるが、本文では表現されない音響的特徴がある。
本稿では,決定論的書き起こし過程を伴わずに音声を対話的動作に変換するエンド・ツー・エンドモデルを提案する。
提案モデルでは,単語レベルASR復号情報の分散表現を提供するソフトマックス層より前の潜在層において,対話行動認識ネットワークを音響対単語ASRモデルと結合する。
そして、ネットワーク全体がエンドツーエンドで微調整される。
これにより、安定したトレーニングと、ASRエラーに対する堅牢性が可能になる。
モデルはさらに拡張され、DAセグメンテーションが共同で実行される。
Switchboard corpus を用いた評価では,従来のパイプラインフレームワークからダイアログの動作認識精度を大幅に向上することが示された。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素テキストのペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。