論文の概要: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- arxiv url: http://arxiv.org/abs/2411.07607v1
- Date: Tue, 12 Nov 2024 07:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:55.854704
- Title: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- Title(参考訳): CJST: CTC圧縮機を用いたDecoder-Only ASRのための共同音声とテキストの訓練
- Authors: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli,
- Abstract要約: CTC圧縮機は、オーディオエンコーダをデコーダのみのモデルに統合するための効果的なアプローチである。
本稿では,デコーダのみのASRのための新しいCTC圧縮器とテキスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.385471708033275
- License:
- Abstract: CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
- Abstract(参考訳): CTC圧縮機は、音声エンコーダをデコーダのみのモデルに統合するための効果的なアプローチであり、様々な音声アプリケーションへの関心が高まっている。
本研究では,デコーダのみのASRのための新しいCTC圧縮機を用いた共同音声・テキスト訓練(CJST)フレームワークを提案する。
CJSTは、単純なモダリティ適応器と、シーケンス圧縮、オンザフライ強制ピークアライメント、CTCクラス埋め込みを含むCTC圧縮器のいくつかの特徴を探索することにより、両方向からの音声とテキストのモダリティを一致させる。
Librispeech と TED-Lium2 コーパスの実験結果から,提案した CJST は持続時間処理を必要とせずに効果的なテキストインジェクションを実現し,ドメイン内シナリオとクロスドメインシナリオの両方において最高のパフォーマンスを実現することができた。
また, 各種圧縮モード, エッジケースハンドリング, およびクリーンかつノイズの多いデータ条件下での挙動を網羅的に検討し, 復号器のみのモデルにCTC圧縮機を使用するための最も堅牢な設定を明らかにした。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Point Cloud Compression via Constrained Optimal Transport [10.795619052889952]
COT-PCCは最適輸送の余分な制約として圧縮された特徴を用いる。
元の点と再構成された点の間の分布変換を学習する。
COT-PCCはCDとPSNRの両方で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-03-13T04:36:24Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。