論文の概要: Personalization of CTC Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2210.09510v1
- Date: Tue, 18 Oct 2022 01:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:42:04.958038
- Title: Personalization of CTC Speech Recognition Models
- Title(参考訳): CTC音声認識モデルのパーソナライズ
- Authors: Saket Dingliwal, Monica Sunkara, Srikanth Ronanki, Jeff Farris, Katrin
Kirchhoff, Sravan Bodapati
- Abstract要約: 本稿では,まず,稀な長尾単語と語彙外単語のリストに対して,エンコーダに注意を向けた2方向アプローチを提案する。
オープンソースVoxPopuliおよび社内医療データセットに対する我々のアプローチを評価し,ドメイン固有のまれな単語に対するF1スコアの60%の改善を示す。
- 参考スコア(独自算出の注目度): 15.470660345766445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end speech recognition models trained using joint Connectionist
Temporal Classification (CTC)-Attention loss have gained popularity recently.
In these models, a non-autoregressive CTC decoder is often used at inference
time due to its speed and simplicity. However, such models are hard to
personalize because of their conditional independence assumption that prevents
output tokens from previous time steps to influence future predictions. To
tackle this, we propose a novel two-way approach that first biases the encoder
with attention over a predefined list of rare long-tail and out-of-vocabulary
(OOV) words and then uses dynamic boosting and phone alignment network during
decoding to further bias the subword predictions. We evaluate our approach on
open-source VoxPopuli and in-house medical datasets to showcase a 60%
improvement in F1 score on domain-specific rare words over a strong CTC
baseline.
- Abstract(参考訳): 接続性時間分類(CTC)を用いたエンドツーエンド音声認識モデルは近年普及している。
これらのモデルでは、非自己回帰CTCデコーダはその速度と単純さのために推論時にしばしば使用される。
しかし、これらのモデルは、将来の予測に影響を与えるために過去の時間ステップからの出力トークンを阻止する条件付き独立仮定のため、パーソナライズが難しい。
そこで本研究では,まず,レア・ロングテール・アウト・オブ・ボキャブラリ(OOV)単語のリストに注意を払ってエンコーダをバイアスし,デコード中に動的ブースティングと電話アライメントネットワークを用いてサブワード予測をバイアスする手法を提案する。
我々は、オープンソースのVoxPopuliおよび社内医療データセットに対するアプローチを評価し、強力なCTCベースライン上でのドメイン固有のレアワードに対するF1スコアの60%改善を示す。
関連論文リスト
- Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn
Medical Interview [26.823126615724888]
エンドツーエンド(E2E)アプローチは、自動音声認識(ASR)タスクのハイブリッドモデルを徐々に置き換えている。
そこで本研究では,トレーニング文字の分布に基づいて変換確率行列を構成する,新しい手法であるポストデコーダバイアスを提案する。
実験では,訓練音声に10回から20回出現する稀な単語のサブセットに対して,それぞれ9.3%,5.1%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-03-01T08:53:52Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Focus on the present: a regularization method for the ASR source-target
attention layer [45.73441417132897]
本稿では,最先端のエンドツーエンド音声認識モデルにおいて,ソースターゲットの注目度を診断する新しい手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
我々は、ソースターゲットのアテンションヘッドが、現在のトークンよりも先にいくつかのトークンを予測できることを発見した。
論文 参考訳(メタデータ) (2020-11-02T18:56:33Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。