論文の概要: Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.19316v1
- Date: Sun, 22 Feb 2026 19:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.582805
- Title: Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition
- Title(参考訳): CTCに対する支払い注意:統一音声認識のための高速かつロバストな擬似ラベル
- Authors: Alexandros Haliassos, Rodrigo Mira, Stavros Petridis,
- Abstract要約: 統一音声認識は、音声、視覚、および聴覚の音声認識のための単一のモデルを訓練するための半教師付きフレームワークとして登場した。
そこでは,CTCの擬似ラベルをアテンションターゲットを生成するためにデコーダに入力するCTC駆動型教師強制方式を提案する。
CTCとCTC駆動のアテンション擬似ラベルは同じ長さであるため、デコーダは両方を同時に予測できる。
- 参考スコア(独自算出の注目度): 61.39209522608919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Speech Recognition (USR) has emerged as a semi-supervised framework for training a single model for audio, visual, and audiovisual speech recognition, achieving state-of-the-art results on in-distribution benchmarks. However, its reliance on autoregressive pseudo-labelling makes training expensive, while its decoupled supervision of CTC and attention branches increases susceptibility to self-reinforcing errors, particularly under distribution shifts involving longer sequences, noise, or unseen domains. We propose CTC-driven teacher forcing, where greedily decoded CTC pseudo-labels are fed into the decoder to generate attention targets in a single forward pass. Although these can be globally incoherent, in the pseudo-labelling setting they enable efficient and effective knowledge transfer. Because CTC and CTC-driven attention pseudo-labels have the same length, the decoder can predict both simultaneously, benefiting from the robustness of CTC and the expressiveness of attention without costly beam search. We further propose mixed sampling to mitigate the exposure bias of the decoder relying solely on CTC inputs. The resulting method, USR 2.0, halves training time, improves robustness to out-of-distribution inputs, and achieves state-of-the-art results on LRS3, LRS2, and WildVSR, surpassing USR and modality-specific self-supervised baselines.
- Abstract(参考訳): 統一音声認識(USR)は、音声、視覚、および聴覚の音声認識のための単一のモデルを訓練し、分布内ベンチマークで最先端の結果を得るための、半教師付きフレームワークとして登場した。
しかし、自己回帰的な擬似ラベリングへの依存は、トレーニングを高価にする一方、CTCと注意枝の分離された監督は、特に長いシーケンス、ノイズ、見えないドメインを含む分布シフトの下で、自己抑制エラーに対する感受性を高める。
本稿では,CTC の擬似ラベルをデコーダに入力し,単一のフォワードパスで注意目標を生成する CTC による教師強制を提案する。
これらはグローバルに一貫性がないが、擬似ラベリング環境では効率的かつ効果的な知識伝達を可能にする。
CTCとCTC駆動のアテンション擬似ラベルは同じ長さであるため、デコーダはCTCのロバスト性や注目の表現性から、低コストでビームサーチを行うことなく、同時に両方を予測することができる。
さらに,CTC入力のみに依存するデコーダの露出バイアスを軽減するため,混合サンプリングを提案する。
得られた方法であるUSR 2.0は、トレーニング時間を半減し、アウト・オブ・ディストリビューション・インプットに対する堅牢性を向上し、LSS3、LSS2、WildVSRの最先端結果を達成する。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
本稿では,2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムに匹敵する技術結果が得られることで、CTCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。