論文の概要: Less Peaky and More Accurate CTC Forced Alignment by Label Priors
- arxiv url: http://arxiv.org/abs/2406.02560v2
- Date: Sat, 15 Jun 2024 22:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 02:10:30.485219
- Title: Less Peaky and More Accurate CTC Forced Alignment by Label Priors
- Title(参考訳): ラベル優先によるCTC強制アライメントの最小化と高精度化
- Authors: Ruizhe Huang, Xiaohui Zhang, Zhaoheng Ni, Li Sun, Moto Hira, Jeff Hwang, Vimal Manohar, Vineel Pratap, Matthew Wiesner, Shinji Watanabe, Daniel Povey, Sanjeev Khudanpur,
- Abstract要約: 接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
本稿では, CTCのピーク動作を緩和し, 強制アライメント生成への適合性を向上させることを目的とする。
我々のCTCモデルはピーク後部を減らし、トークンのオフセットをより正確に予測することができる。
- 参考スコア(独自算出の注目度): 57.48450905027108
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Connectionist temporal classification (CTC) models are known to have peaky output distributions. Such behavior is not a problem for automatic speech recognition (ASR), but it can cause inaccurate forced alignments (FA), especially at finer granularity, e.g., phoneme level. This paper aims at alleviating the peaky behavior for CTC and improve its suitability for forced alignment generation, by leveraging label priors, so that the scores of alignment paths containing fewer blanks are boosted and maximized during training. As a result, our CTC model produces less peaky posteriors and is able to more accurately predict the offset of the tokens besides their onset. It outperforms the standard CTC model and a heuristics-based approach for obtaining CTC's token offset timestamps by 12-40% in phoneme and word boundary errors (PBE and WBE) measured on the Buckeye and TIMIT data. Compared with the most widely used FA toolkit Montreal Forced Aligner (MFA), our method performs similarly on PBE/WBE on Buckeye, yet falls behind MFA on TIMIT. Nevertheless, our method has a much simpler training pipeline and better runtime efficiency. Our training recipe and pretrained model are released in TorchAudio.
- Abstract(参考訳): 接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
このような動作は自動音声認識(ASR)では問題にならないが、特に音素レベルなどの粒度の細かい場合、不正確な強制アライメント(FA)を引き起こす可能性がある。
本稿では, CTCのピーク時挙動を緩和し, ラベル事前を利用して強制アライメント生成の適性を向上させることを目的として, トレーニング中に空白が少ないアライメントパスのスコアを引き上げ, 最大化することを目的とする。
その結果、CTCモデルはピーク後部を小さくし、トークンのオフセットだけでなく、トークンのオフセットをより正確に予測することができる。
これは、BuckeyeとTIMITのデータで測定された音素と単語境界誤差(PBEとWBE)において、標準CTCモデルと、CTCのトークンオフセットタイムスタンプを12-40%向上させるヒューリスティックスに基づくアプローチよりも優れている。
最も広く使われているFAツールキットであるモントリオール強制アリグナー (MFA) と比較すると、Buckeye の PBE/WBE も同様に機能するが、TIMIT では MFA に劣る。
それにもかかわらず、我々の手法はより単純なトレーニングパイプラインとより良い実行効率を持つ。
トレーニングレシピと事前学習モデルはTorchAudioでリリースされています。
関連論文リスト
- Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Non-autoregressive Error Correction for CTC-based ASR with
Phone-conditioned Masked LM [39.03817586745041]
そこで本稿では,PC-MLMによる誤り訂正手法を提案する。
CTCとPC-MLMはどちらも非自己回帰モデルであるため、高速なLM統合を可能にする。
論文 参考訳(メタデータ) (2022-09-08T23:42:37Z) - Efficient One Pass Self-distillation with Zipf's Label Smoothing [12.626049767353386]
自己蒸留は、トレーニング中の不均一なソフトインスペクションをそれ自体から活用し、実行時コストなしでパフォーマンスを向上させる。
本稿では,ネットワークのオンザフライ予測を用いたZipfのラベル平滑化(Zipf's Label Smoothing,Zipf's LS)を提案する。
本手法は,バニラベースラインに比べて+3.61%の精度向上を実現し,従来のラベルの平滑化や自己蒸留に対する0.88%の精度向上を実現した。
論文 参考訳(メタデータ) (2022-07-26T15:40:16Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。