論文の概要: Contextualized Automatic Speech Recognition with Dynamic Vocabulary
- arxiv url: http://arxiv.org/abs/2405.13344v2
- Date: Fri, 30 Aug 2024 07:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 19:51:26.086161
- Title: Contextualized Automatic Speech Recognition with Dynamic Vocabulary
- Title(参考訳): 動的語彙を用いた文脈自動音声認識
- Authors: Yui Sudo, Yosuke Fukumoto, Muhammad Shakeel, Yifan Peng, Shinji Watanabe,
- Abstract要約: 本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
- 参考スコア(独自算出の注目度): 41.892863381787684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep biasing (DB) enhances the performance of end-to-end automatic speech recognition (E2E-ASR) models for rare words or contextual phrases using a bias list. However, most existing methods treat bias phrases as sequences of subwords in a predefined static vocabulary. This naive sequence decomposition produces unnatural token patterns, significantly lowering their occurrence probability. More advanced techniques address this problem by expanding the vocabulary with additional modules, including the external language model shallow fusion or rescoring. However, they result in increasing the workload due to the additional modules. This paper proposes a dynamic vocabulary where bias tokens can be added during inference. Each entry in a bias list is represented as a single token, unlike a sequence of existing subword tokens. This approach eliminates the need to learn subword dependencies within the bias phrases. This method is easily applied to various architectures because it only expands the embedding and output layers in common E2E-ASR architectures. Experimental results demonstrate that the proposed method improves the bias phrase WER on English and Japanese datasets by 3.1 -- 4.9 points compared with the conventional DB method.
- Abstract(参考訳): ディープバイアス(DB)は、バイアスリストを用いて、まれな単語や文脈句に対するエンドツーエンドの自動音声認識(E2E-ASR)モデルの性能を向上させる。
しかし、既存のほとんどの手法では、バイアスフレーズを事前定義された静的語彙のサブワードのシーケンスとして扱う。
この単純配列分解は不自然なトークンパターンを生じさせ、発生確率を著しく低下させる。
より高度な技術は、外部言語モデルの浅い融合や再描画を含む追加モジュールで語彙を拡張することでこの問題に対処する。
しかし、追加のモジュールによってワークロードが増加します。
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
このアプローチでは、バイアスフレーズ内でサブワードの依存関係を学ぶ必要がなくなる。
この方法は、一般的なE2E-ASRアーキテクチャにおいて、埋め込み層と出力層のみを拡張するため、様々なアーキテクチャに容易に適用できる。
実験の結果,提案手法は従来のDB法と比較して,英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Improving Large-scale Deep Biasing with Phoneme Features and Text-only
Data in Streaming Transducer [23.70253642540094]
Transducerの深いバイアスは、稀な単語やコンテキストエンティティの認識性能を向上させることができる。
本稿では,トランスデューサにおけるレアワードの音素情報とテキスト情報を組み合わせて,類似した発音や綴りで単語を区別する。
LibriSpeech corpus の実験により,提案手法は,異なるスケールとバイアスリストのレベルに対して,稀な単語誤り率に対する最先端性能を実現することを示した。
論文 参考訳(メタデータ) (2023-11-15T13:53:28Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Improve Retrieval-based Dialogue System via Syntax-Informed Attention [46.79601705850277]
文内構文情報と文間構文情報の両方を考慮したSIA, Syntax-Informed Attentionを提案する。
提案手法を広範に使用した3つのベンチマークで評価し,対話応答選択における本手法の一般的な優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-03-12T08:14:16Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。