論文の概要: Personalization Strategies for End-to-End Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2102.07739v1
- Date: Mon, 15 Feb 2021 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:49:42.594213
- Title: Personalization Strategies for End-to-End Speech Recognition Systems
- Title(参考訳): エンドツーエンド音声認識システムのパーソナライゼーション戦略
- Authors: Aditya Gourav, Linda Liu, Ankur Gandhe, Yile Gu, Guitang Lan,
Xiangyang Huang, Shashank Kalmane, Gautam Tiwari, Denis Filimonov, Ariya
Rastrow, Andreas Stolcke, Ivan Bulyko
- Abstract要約: 第1と第2パスのリコーリング戦略を併用して,パーソナライズされた単語の認識を改善する方法を示す。
このようなアプローチは,一般のユースケースにおいて最小限の分解で,最大16%のパーソナライズされたコンテンツ認識を改善できることを示す。
また, オラクルWERを最適化した第1パス浅部融合と併用して, 新規な第2パス脱バイアス法についても述べる。
- 参考スコア(独自算出の注目度): 12.993241217354322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recognition of personalized content, such as contact names, remains a
challenging problem for end-to-end speech recognition systems. In this work, we
demonstrate how first and second-pass rescoring strategies can be leveraged
together to improve the recognition of such words. Following previous work, we
use a shallow fusion approach to bias towards recognition of personalized
content in the first-pass decoding. We show that such an approach can improve
personalized content recognition by up to 16% with minimum degradation on the
general use case. We describe a fast and scalable algorithm that enables our
biasing models to remain at the word-level, while applying the biasing at the
subword level. This has the advantage of not requiring the biasing models to be
dependent on any subword symbol table. We also describe a novel second-pass
de-biasing approach: used in conjunction with a first-pass shallow fusion that
optimizes on oracle WER, we can achieve an additional 14% improvement on
personalized content recognition, and even improve accuracy for the general use
case by up to 2.5%.
- Abstract(参考訳): 連絡先名などのパーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識システムでは難しい問題である。
そこで本研究では,第1と第2パスのリコーリング戦略を併用して,単語認識を改善する方法を示す。
先程の研究に続いて、第1パス復号におけるパーソナライズされたコンテンツの認識に対するバイアスに浅層融合アプローチを用いる。
このようなアプローチは,一般のユースケースにおいて最小限の分解で,最大16%のパーソナライズされたコンテンツ認識を改善できることを示す。
高速でスケーラブルなアルゴリズムを記述し、単語レベルでバイアスモデルを保ちながら、サブワードレベルでバイアスを適用できるようにする。
これは任意のサブワードシンボルテーブルに依存するバイアスモデルを必要としないという利点がある。
また、オラクルWERを最適化した第1パス浅い融合と組み合わせることで、パーソナライズされたコンテンツ認識をさらに14%改善し、一般的なユースケースの精度を最大2.5%向上させるという、新しい第2パス脱バイアスアプローチについても説明します。
関連論文リスト
- InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。
日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文 参考訳(メタデータ) (2024-06-21T06:25:10Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - Personalization of CTC-based End-to-End Speech Recognition Using
Pronunciation-Driven Subword Tokenization [7.259999144975082]
本稿では,コネクショナリズムの時間的分類に基づくエンドツーエンド音声認識システムに対するパーソナライズソリューションについて述べる。
我々は,この手法を,文脈バイアスとワードピース事前正規化という2つの確立された手法と組み合わせることで,競合するハイブリッドシステムと同等の個人名の実体精度を達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-16T00:06:32Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Personalization for BERT-based Discriminative Speech Recognition
Rescoring [13.58828513686159]
認識を改善するために、パーソナライズされたコンテンツを使用する新しい3つのアプローチ:ガゼッタ、プロンプト、および、クロスアテンションベースのエンコーダ-デコーダモデル。
パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。
論文 参考訳(メタデータ) (2023-07-13T15:54:32Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Transformer-Based Approach for Joint Handwriting and Named Entity
Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。
我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-08T09:26:21Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。