論文の概要: Contextualized Streaming End-to-End Speech Recognition with Trie-Based
Deep Biasing and Shallow Fusion
- arxiv url: http://arxiv.org/abs/2104.02194v1
- Date: Mon, 5 Apr 2021 23:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:18:39.282960
- Title: Contextualized Streaming End-to-End Speech Recognition with Trie-Based
Deep Biasing and Shallow Fusion
- Title(参考訳): Trie-based Deep Biasing and Shallow Fusion を用いた文脈的ストリームエンドツーエンド音声認識
- Authors: Duc Le, Mahaveer Jain, Gil Keren, Suyoun Kim, Yangyang Shi, Jay
Mahadeokar, Julian Chan, Yuan Shangguan, Christian Fuegen, Ozlem Kalinli,
Yatharth Saraf, Michael L. Seltzer
- Abstract要約: 本稿では, 浅層融合, トリエベースディープバイアス, ニューラルネットワーク言語モデルの文脈化を組み合わせた新しい解を提案する。
最終的なシステムは軽量でモジュール化されており、モデルの再トレーニングなしに素早く修正できます。
- 参考スコア(独自算出の注目度): 31.14388198559144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to leverage dynamic contextual information in end-to-end speech
recognition has remained an active research area. Previous solutions to this
problem were either designed for specialized use cases that did not generalize
well to open-domain scenarios, did not scale to large biasing lists, or
underperformed on rare long-tail words. We address these limitations by
proposing a novel solution that combines shallow fusion, trie-based deep
biasing, and neural network language model contextualization. These techniques
result in significant 19.5% relative Word Error Rate improvement over existing
contextual biasing approaches and 5.4%-9.3% improvement compared to a strong
hybrid baseline on both open-domain and constrained contextualization tasks,
where the targets consist of mostly rare long-tail words. Our final system
remains lightweight and modular, allowing for quick modification without model
re-training.
- Abstract(参考訳): エンド・ツー・エンド音声認識における動的文脈情報の利用法は、現在も活発な研究分野である。
この問題に対する以前の解決策は、オープンドメインのシナリオをうまく一般化しなかったり、大きなバイアスリストにスケールしなかったり、稀な長尾語で性能が低かったりする特殊なユースケースのために設計された。
これらの制限に対処するために、浅い融合、トリエベースのディープバイアス、ニューラルネットワーク言語モデルの文脈化を組み合わせた新しいソリューションを提案する。
これらの手法は、既存の文脈バイアスアプローチに対する19.5%の相対的な単語誤り率の改善と、5.4%-9.3%の改善をもたらす。
最終的なシステムは軽量でモジュール化されており、モデルの再トレーニングなしに素早く修正できます。
関連論文リスト
- Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文 参考訳(メタデータ) (2024-06-23T14:22:59Z) - Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging [43.388004364072174]
本稿では,ラベルコンテキストの量がモデルの精度に及ぼす影響と復号処理の効率に与える影響について検討する。
我々は、全文ベースラインと比較して単語誤り率(WER)を低下させることなく、トレーニング中の繰り返しニューラルネットワークトランスデューサ(RNN-T)のコンテキストを従来の4つの単語ピースラベルに制限できることを見出しました。
論文 参考訳(メタデータ) (2020-12-12T07:39:21Z) - Deep Shallow Fusion for RNN-T Personalization [22.271012062526463]
我々は,レアなWordPiecesをモデル化するRNN-Tの能力を向上させる新しい手法を提案する。
これらの組み合わせにより15.4%~34.5%の単語誤り率改善が達成された。
論文 参考訳(メタデータ) (2020-11-16T07:13:58Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。