論文の概要: CB-Conformer: Contextual biasing Conformer for biased word recognition
- arxiv url: http://arxiv.org/abs/2304.09607v1
- Date: Wed, 19 Apr 2023 12:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:30:48.616896
- Title: CB-Conformer: Contextual biasing Conformer for biased word recognition
- Title(参考訳): CB-Conformer: バイアス付き単語認識のためのコンテキストバイアス変換器
- Authors: Yaoxun Xu and Baiji Liu and Qiaochu Huang and, Xingchen Song and
Zhiyong Wu and Shiyin Kang and Helen Meng
- Abstract要約: 本稿では,Vanilla ConformerにContextual Biasing ModuleとSelf-Adaptive Language Modelを導入する。
提案手法は,文字誤り率を15.34%削減し,14.13%の単語リコール,6.80%の単語F1スコアアップを実現した。
- 参考スコア(独自算出の注目度): 33.28780163232423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the mismatch between the source and target domains, how to better
utilize the biased word information to improve the performance of the automatic
speech recognition model in the target domain becomes a hot research topic.
Previous approaches either decode with a fixed external language model or
introduce a sizeable biasing module, which leads to poor adaptability and slow
inference. In this work, we propose CB-Conformer to improve biased word
recognition by introducing the Contextual Biasing Module and the Self-Adaptive
Language Model to vanilla Conformer. The Contextual Biasing Module combines
audio fragments and contextual information, with only 0.2% model parameters of
the original Conformer. The Self-Adaptive Language Model modifies the internal
weights of biased words based on their recall and precision, resulting in a
greater focus on biased words and more successful integration with the
automatic speech recognition model than the standard fixed language model. In
addition, we construct and release an open-source Mandarin biased-word dataset
based on WenetSpeech. Experiments indicate that our proposed method brings a
15.34% character error rate reduction, a 14.13% biased word recall increase,
and a 6.80% biased word F1-score increase compared with the base Conformer.
- Abstract(参考訳): ソース領域とターゲット領域のミスマッチにより、偏りのある単語情報をうまく利用して、ターゲット領域における自動音声認識モデルの性能を向上させる方法が、ホットな研究テーマとなる。
以前のアプローチでは、固定された外部言語モデルでデコードするか、サイズの大きいバイアスモジュールを導入していた。
本研究では,文脈バイアスモジュールと自己適応型言語モデルを導入してバイアス付き単語認識を改善するcb-conformerを提案する。
コンテキストバイアスモジュールは、オーディオフラグメントとコンテキスト情報を組み合わせたもので、オリジナルのコンフォーメータのモデルパラメータはわずか0.2%である。
自己適応言語モデル(Self-Adaptive Language Model)は、そのリコールと精度に基づいてバイアス付き単語の内部重みを修正し、バイアス付き単語に焦点を合わせ、標準の固定言語モデルよりも自動音声認識モデルとの統合を成功させる。
さらに,wenetspeechに基づくオープンソースmandarinbiased-wordデータセットを構築し,公開する。
実験の結果,提案手法では文字誤り率を15.34%削減し,14.13%の単語リコール,6.80%の単語F1スコアがベースコンバータに比べて増加した。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition [9.03519622415822]
本研究では,言語間コンテキストバイアス(XCB)モジュールを提案する。
我々は、補助言語バイアスモジュールと言語固有の損失を統合することで、支配言語のための事前訓練されたASRモデルを強化する。
社内のコードスイッチングデータセットで行った実験結果から,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T04:00:19Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。