論文の概要: Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation
- arxiv url: http://arxiv.org/abs/2210.15226v1
- Date: Thu, 27 Oct 2022 07:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:14:16.636168
- Title: Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation
- Title(参考訳): 自己教師付きasr領域適応のための音響ctc損失による擬似強制アライメント
- Authors: Fernando L\'opez and Jordi Luque
- Abstract要約: 特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
- 参考スコア(独自算出の注目度): 80.12316877964558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality data labeling from specific domains is costly and human
time-consuming. In this work, we propose a self-supervised domain adaptation
method, based upon an iterative pseudo-forced alignment algorithm. The produced
alignments are employed to customize an end-to-end Automatic Speech Recognition
(ASR) and iteratively refined. The algorithm is fed with frame-wise character
posteriors produced by a seed ASR, trained with out-of-domain data, and
optimized throughout a Connectionist Temporal Classification (CTC) loss. The
alignments are computed iteratively upon a corpus of broadcast TV. The process
is repeated by reducing the quantity of text to be aligned or expanding the
alignment window until finding the best possible audio-text alignment. The
starting timestamps, or temporal anchors, are produced uniquely based on the
confidence score of the last aligned utterance. This score is computed with the
paths of the CTC-alignment matrix. With this methodology, no human-revised text
references are required. Alignments from long audio files with low-quality
transcriptions, like TV captions, are filtered out by confidence score and
ready for further ASR adaptation. The obtained results, on both the Spanish
RTVE2022 and CommonVoice databases, underpin the feasibility of using CTC-based
systems to perform: highly accurate audio-text alignments, domain adaptation
and semi-supervised training of end-to-end ASR.
- Abstract(参考訳): 特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本研究では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
生成したアライメントは、エンドツーエンドの自動音声認識(ASR)をカスタマイズし、反復的に洗練される。
このアルゴリズムは、シードASRによって生成されたフレームワイド文字後部で供給され、ドメイン外のデータで訓練され、Connectionist Temporal Classification (CTC) の損失を通じて最適化される。
アライメントは、放送テレビのコーパス上で反復的に計算される。
最善のオーディオテキストアライメントを見つけるまで、アライメントするテキストの量を減らしたり、アライメントウィンドウを広げたりすることで、プロセスを繰り返す。
開始タイムスタンプ(temporal anchor)は、最後のアライメントされた発話の信頼度スコアに基づいて独特に生成される。
このスコアは、CTCアライメント行列のパスで計算される。
この手法では、人間が指定したテキスト参照は不要である。
長いオーディオファイルからテレビキャプションのような低品質な書き起こしのアライメントは信頼度スコアでフィルタリングされ、さらにasrに適応する準備ができています。
得られた結果は、スペインのrtve2022データベースとcommonvoiceデータベースの両方において、高精度なオーディオテキストアライメント、ドメイン適応、エンドツーエンドasrの半教師付きトレーニングという、ctcベースのシステムの実現可能性を支えるものであった。
関連論文リスト
- CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。
提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。
次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文 参考訳(メタデータ) (2024-06-12T06:44:40Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。