論文の概要: Improving Large-scale Deep Biasing with Phoneme Features and Text-only
Data in Streaming Transducer
- arxiv url: http://arxiv.org/abs/2311.08966v1
- Date: Wed, 15 Nov 2023 13:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:57:38.654636
- Title: Improving Large-scale Deep Biasing with Phoneme Features and Text-only
Data in Streaming Transducer
- Title(参考訳): ストリーミングトランスデューサにおける音素特徴とテキストのみデータを用いた大規模深部バイアスの改善
- Authors: Jin Qiu, Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma
- Abstract要約: Transducerの深いバイアスは、稀な単語やコンテキストエンティティの認識性能を向上させることができる。
本稿では,トランスデューサにおけるレアワードの音素情報とテキスト情報を組み合わせて,類似した発音や綴りで単語を区別する。
LibriSpeech corpus の実験により,提案手法は,異なるスケールとバイアスリストのレベルに対して,稀な単語誤り率に対する最先端性能を実現することを示した。
- 参考スコア(独自算出の注目度): 23.70253642540094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep biasing for the Transducer can improve the recognition performance of
rare words or contextual entities, which is essential in practical
applications, especially for streaming Automatic Speech Recognition (ASR).
However, deep biasing with large-scale rare words remains challenging, as the
performance drops significantly when more distractors exist and there are words
with similar grapheme sequences in the bias list. In this paper, we combine the
phoneme and textual information of rare words in Transducers to distinguish
words with similar pronunciation or spelling. Moreover, the introduction of
training with text-only data containing more rare words benefits large-scale
deep biasing. The experiments on the LibriSpeech corpus demonstrate that the
proposed method achieves state-of-the-art performance on rare word error rate
for different scales and levels of bias lists.
- Abstract(参考訳): Transducerのディープバイアスは、特にASR(Automatic Speech Recognition)のストリーミングに不可欠な、稀な単語やコンテキストエンティティの認識性能を改善することができる。
しかし、より注意をそらせば性能が大幅に低下し、バイアスリストに類似したグラフ列を持つ単語が存在するため、大規模な稀な単語による深いバイアスは依然として困難である。
本稿では,トランスデューサにおけるレアワードの音素情報とテキスト情報を組み合わせて,類似した発音や綴りで単語を区別する。
さらに、より希少な単語を含むテキストのみのデータによるトレーニングの導入は、大規模な深層バイアスの恩恵を受ける。
LibriSpeech corpus の実験により,提案手法は,異なるスケールとバイアスリストのレベルに対して,稀な単語誤り率に対する最先端性能を実現することを示した。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn
Medical Interview [26.823126615724888]
エンドツーエンド(E2E)アプローチは、自動音声認識(ASR)タスクのハイブリッドモデルを徐々に置き換えている。
そこで本研究では,トレーニング文字の分布に基づいて変換確率行列を構成する,新しい手法であるポストデコーダバイアスを提案する。
実験では,訓練音声に10回から20回出現する稀な単語のサブセットに対して,それぞれ9.3%,5.1%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-03-01T08:53:52Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。