論文の概要: Personalization of CTC-based End-to-End Speech Recognition Using
Pronunciation-Driven Subword Tokenization
- arxiv url: http://arxiv.org/abs/2310.09988v1
- Date: Mon, 16 Oct 2023 00:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:09:30.074675
- Title: Personalization of CTC-based End-to-End Speech Recognition Using
Pronunciation-Driven Subword Tokenization
- Title(参考訳): 発音駆動サブワードトークン化を用いたCTCに基づくエンドツーエンド音声認識のパーソナライズ
- Authors: Zhihong Lei, Ernest Pusateri, Shiyi Han, Leo Liu, Mingbin Xu, Tim Ng,
Ruchir Travadi, Youyuan Zhang, Mirko Hannemann, Man-Hung Siu, Zhen Huang
- Abstract要約: 本稿では,コネクショナリズムの時間的分類に基づくエンドツーエンド音声認識システムに対するパーソナライズソリューションについて述べる。
我々は,この手法を,文脈バイアスとワードピース事前正規化という2つの確立された手法と組み合わせることで,競合するハイブリッドシステムと同等の個人名の実体精度を達成できることを実証した。
- 参考スコア(独自算出の注目度): 7.259999144975082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning and automatic speech recognition have
improved the accuracy of end-to-end speech recognition systems, but recognition
of personal content such as contact names remains a challenge. In this work, we
describe our personalization solution for an end-to-end speech recognition
system based on connectionist temporal classification. Building on previous
work, we present a novel method for generating additional subword tokenizations
for personal entities from their pronunciations. We show that using this
technique in combination with two established techniques, contextual biasing
and wordpiece prior normalization, we are able to achieve personal named entity
accuracy on par with a competitive hybrid system.
- Abstract(参考訳): 近年のディープラーニングと自動音声認識の進歩により、エンドツーエンド音声認識システムの精度が向上しているが、連絡先等の個人コンテンツ認識は依然として課題である。
本稿では,コネクショナリズムの時間的分類に基づくエンドツーエンド音声認識システムのパーソナライズソリューションについて述べる。
先行研究を基盤として,発音から個人用サブワードトークンを生成する新しい手法を提案する。
この手法と文脈バイアスとワードピース事前正規化という2つの確立した手法を組み合わせることで,競合するハイブリッドシステムと同等の個人名付きエンティティ精度を実現できることを示す。
関連論文リスト
- InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。
日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文 参考訳(メタデータ) (2024-06-21T06:25:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Personalization Strategies for End-to-End Speech Recognition Systems [12.993241217354322]
第1と第2パスのリコーリング戦略を併用して,パーソナライズされた単語の認識を改善する方法を示す。
このようなアプローチは,一般のユースケースにおいて最小限の分解で,最大16%のパーソナライズされたコンテンツ認識を改善できることを示す。
また, オラクルWERを最適化した第1パス浅部融合と併用して, 新規な第2パス脱バイアス法についても述べる。
論文 参考訳(メタデータ) (2021-02-15T18:36:13Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。