論文の概要: Towards Effective and Compact Contextual Representation for Conformer
Transducer Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2306.13307v2
- Date: Mon, 26 Jun 2023 02:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 10:15:33.949848
- Title: Towards Effective and Compact Contextual Representation for Conformer
Transducer Speech Recognition Systems
- Title(参考訳): コンフォーメータトランスデューサ音声認識システムにおける効率的かつコンパクトなコンテクスト表現に向けて
- Authors: Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen,
Xunying Liu
- Abstract要約: 本稿では,最も関連性の高い歴史文脈のコンパクトな表現を導出することを目的とする。
1000時間Gigaspeechコーパスの実験では、提案したコンフォーマー・トランスデューサがベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 39.90886684053726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current ASR systems are mainly trained and evaluated at the utterance level.
Long range cross utterance context can be incorporated. A key task is to derive
a suitable compact representation of the most relevant history contexts. In
contrast to previous researches based on either LSTM-RNN encoded histories that
attenuate the information from longer range contexts, or frame level
concatenation of transformer context embeddings, in this paper compact
low-dimensional cross utterance contextual features are learned in the
Conformer-Transducer Encoder using specially designed attention pooling layers
that are applied over efficiently cached preceding utterances history vectors.
Experiments on the 1000-hr Gigaspeech corpus demonstrate that the proposed
contextualized streaming Conformer-Transducers outperform the baseline using
utterance internal context only with statistically significant WER reductions
of 0.7% to 0.5% absolute (4.3% to 3.1% relative) on the dev and test data.
- Abstract(参考訳): 現在のasrシステムは、主に発話レベルで訓練され、評価される。
長距離横断発話コンテキストを組み込むことができる。
重要なタスクは、最も関連する履歴コンテキストの適切なコンパクト表現を導出することである。
従来のlstm-rnn符号化履歴に基づく研究とは対照的に、より長い範囲のコンテキストからの情報を減衰させるlstm-rnn符号化履歴や、トランスフォーマーコンテキスト埋め込みのフレームレベル結合などとは対照的に、よりコンパクトな低次元クロス発話コンテキスト特徴をコンフォーメータトランスデューサエンコーダで学習し、先行発話履歴ベクトルを効率的にキャッシュする特別に設計された注意プーリング層を用いて学習する。
1000時間Gigaspeechコーパスの実験では、提案されたコンフォーマー・トランスデューサは、音声内部コンテキストを使用してベースラインを上回り、開発データとテストデータに対して統計的に有意なWERの0.7%から0.5%の絶対値(4.3%から3.1%の相対値)を減少させる。
関連論文リスト
- Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer [16.716653844774374]
クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T23:21:46Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Leveraging Cross-Utterance Context For ASR Decoding [6.033324057680156]
クロス発話情報は、第2パスの再検査で有益であることが示されている。
ビームサーチによる音響モデルのクロス発話復号のための長文変換器LMの組込みについて検討する。
論文 参考訳(メタデータ) (2023-06-29T12:48:25Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。