論文の概要: Fast and Robust Unsupervised Contextual Biasing for Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.01677v1
- Date: Mon, 4 May 2020 17:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:55:50.266335
- Title: Fast and Robust Unsupervised Contextual Biasing for Speech Recognition
- Title(参考訳): 音声認識のための高速かつロバストな教師なしコンテキストバイアス
- Authors: Young Mo Kang, Yingbo Zhou
- Abstract要約: 明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 16.557586847398778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) system is becoming a ubiquitous
technology. Although its accuracy is closing the gap with that of human level
under certain settings, one area that can further improve is to incorporate
user-specific information or context to bias its prediction. A common framework
is to dynamically construct a small language model from the provided contextual
mini corpus and interpolate its score with the main language model during the
decoding process.
Here we propose an alternative approach that does not entail explicit
contextual language model. Instead, we derive the bias score for every word in
the system vocabulary from the training corpus. The method is unique in that 1)
it does not require meta-data or class-label annotation for the context or the
training corpus. 2) The bias score is proportional to the word's
log-probability, thus not only would it bias the provided context, but also
robust against irrelevant context (e.g. user mis-specified or in case where it
is hard to quantify a tight scope). 3) The bias score for the entire vocabulary
is pre-determined during the training stage, thereby eliminating
computationally expensive language model construction during inference.
We show significant improvement in recognition accuracy when the relevant
context is available. Additionally, we also demonstrate that the proposed
method exhibits high tolerance to false-triggering errors in the presence of
irrelevant context.
- Abstract(参考訳): 音声認識(ASR)システムはユビキタスな技術になりつつある。
その精度は、特定の設定下での人間のレベルとのギャップを埋めるが、さらに改善できる分野は、ユーザー固有の情報やコンテキストを取り入れ、予測を偏見させることである。
共通の枠組みは、提供される文脈的ミニコーパスから小さな言語モデルを動的に構築し、そのスコアをデコードプロセス中にメイン言語モデルと補間することである。
本稿では,明示的な文脈言語モデルを含まない代替手法を提案する。
代わりに、システム語彙のすべての単語に対するバイアススコアを、トレーニングコーパスから導き出す。
その方法にはユニークです
1) コンテキストやトレーニングコーパスのメタデータやクラスラベルアノテーションを必要としない。
2) バイアススコアは単語の対数確率に比例するので、提供された文脈に偏りがあるだけでなく、無関係な文脈(例えば、ユーザの不特定や、厳密な範囲の定量化が難しい場合)に対して堅牢である。
3) 語彙全体のバイアススコアはトレーニング段階で事前に決定され, 推論時に計算コストの高い言語モデル構築が不要になる。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
また,提案手法は,無関係な状況下での誤トリガ誤りに対する高い耐性を示すことを示す。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection [21.116123328330467]
本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。
まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
論文 参考訳(メタデータ) (2022-01-30T13:08:16Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。