論文の概要: CCA-MDD: A Coupled Cross-Attention based Framework for Streaming
Mispronunciation detection and diagnosis
- arxiv url: http://arxiv.org/abs/2111.08191v1
- Date: Tue, 16 Nov 2021 02:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:25:45.556788
- Title: CCA-MDD: A Coupled Cross-Attention based Framework for Streaming
Mispronunciation detection and diagnosis
- Title(参考訳): cca-mdd: ストリーミング誤検出と診断のためのクロスアテンションベースフレームワーク
- Authors: Nianzu Zheng, Liqun Deng, Wenyong Huang, Yu Ting Yeung, Baohua Xu,
Yuanyuan Guo, Yasheng Wang, Xin Jiang, Qun Liu
- Abstract要約: CCA-MDDはオンライン処理をサポートし、厳密にリアルタイムに実行できる。
マルチタスク学習から訓練されたデコーダのアンサンブルをMDD決定に適用する。
- 参考スコア(独自算出の注目度): 33.040915690120755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models are becoming popular approaches for mispronunciation
detection and diagnosis (MDD). A streaming MDD framework which is demanded by
many practical applications still remains a challenge. This paper proposes a
streaming end-to-end MDD framework called CCA-MDD. CCA-MDD supports online
processing and is able to run strictly in real-time. The encoder of CCA-MDD
consists of a conv-Transformer network based streaming acoustic encoder and an
improved cross-attention named coupled cross-attention (CCA). The coupled
cross-attention integrates encoded acoustic features with pre-encoded
linguistic features. An ensemble of decoders trained from multi-task learning
is applied for final MDD decision. Experiments on publicly available corpora
demonstrate that CCA-MDD achieves comparable performance to published offline
end-to-end MDD models.
- Abstract(参考訳): エンド・ツー・エンドのモデルは、誤発音の検出と診断(MDD)に人気がある。
多くの実用的なアプリケーションから要求されるストリーミングMDDフレームワークは依然として課題である。
本稿では,CA-MDD と呼ばれるストリーミングエンドツーエンド MDD フレームワークを提案する。
CCA-MDDはオンライン処理をサポートし、厳密にリアルタイムに実行できる。
CCA-MDDのエンコーダは、conv-Transformerネットワークベースのストリーミングアコースティックエンコーダと、コラボレート・クロスアテンション(CCA)と呼ばれる改良されたクロスアテンションで構成される。
結合されたクロスアテンションは、符号化された音響特徴と事前符号化された言語特徴を統合する。
マルチタスク学習から訓練されたデコーダのアンサンブルをMDD決定に適用する。
CCA-MDDは、公開されたオフラインのMDDモデルに匹敵する性能を発揮する。
関連論文リスト
- Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation [4.564976342039024]
本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。
DCDは、DropoutやQuantizationなど、Contrastive Chain-of- Thought Promptingと高度な蒸留技術を採用している。
評価の結果,DCD は様々な推論ベンチマークにおいて LLM 性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-21T17:20:38Z) - Accurate and Well-Calibrated ICD Code Assignment Through Attention Over
Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。
本稿では,ICDの自動符号化のための新しい手法について述べる。
MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-05T16:40:23Z) - Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文 参考訳(メタデータ) (2023-06-01T13:55:23Z) - Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding [29.80299587861207]
ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T13:25:44Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。