Fugu-MT 論文翻訳(概要): Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

論文の概要: Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

arxiv url: http://arxiv.org/abs/2305.12493v5
Date: Wed, 12 Jul 2023 17:41:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 19:19:39.312203
Title: Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network
Title（参考訳）: 文脈的フレーズ予測ネットワークを用いた文脈的エンドツーエンド音声認識
Authors: Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie
Abstract要約: 本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
参考スコア（独自算出の注目度）: 14.115294331065318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.
Abstract（参考訳）: 近年,音声認識技術において文脈情報が重要な役割を担い,エンドツーエンド音声認識モデルに組み込むことが注目されている。しかし、従来のディープバイアス法はバイアスタスクの明示的な監督を欠いていた。本研究では,注意に基づくディープバイアス手法のための文脈句予測ネットワークを提案する。このネットワークは文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算して文脈モデルのトレーニングを支援する。提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。 librispeechコーパスの実験では,提案モデルがベースラインモデルよりも12.1%向上し,文脈句のwerは相対的に40.5%減少することが示された。さらに,コンテキスト句フィルタリング戦略を適用することで,バイアスリストが大きい場合に,war劣化を効果的に排除する。

関連論文リスト

Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文参考訳（メタデータ） (2025-06-23T14:42:03Z)
Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation [7.455706251115513]
本稿では,動的語彙予測とアクティベーションを利用するエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。 Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインと比較して28.31% と 23.49% の WER の相対的な削減を実現していることが示された。
論文参考訳（メタデータ） (2025-05-29T04:31:33Z)
Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文参考訳（メタデータ） (2024-06-23T14:22:59Z)
Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。 1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文参考訳（メタデータ） (2024-06-05T04:20:17Z)
Contextualized Automatic Speech Recognition with Attention-Based Bias Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文参考訳（メタデータ） (2024-01-19T01:36:07Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Improving End-to-End Contextual Speech Recognition with Fine-grained Contextual Knowledge Selection [21.116123328330467]
本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
論文参考訳（メタデータ） (2022-01-30T13:08:16Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。提案手法の有効性をベンチマークデータセットで検証する。
論文参考訳（メタデータ） (2020-06-01T18:27:48Z)
Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文参考訳（メタデータ） (2020-05-04T17:29:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。