論文の概要: Improving CTC-AED model with integrated-CTC and auxiliary loss
regularization
- arxiv url: http://arxiv.org/abs/2308.08449v1
- Date: Tue, 15 Aug 2023 03:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:56:25.695249
- Title: Improving CTC-AED model with integrated-CTC and auxiliary loss
regularization
- Title(参考訳): 統合CTCと補助損失正規化によるCTC-AEDモデルの改善
- Authors: Daobin Zhu, Xiangdong Su and Hongbin Zhang
- Abstract要約: 自動音声認識(ASR)において、コネクショニスト時間的分類とアテンションベースエンコーダデコーダ(AED)共同訓練が広く適用されている。
本稿では,2つの融合法,すなわち直接ロジット加算(DAL)と最大確率保存(PMP)を用いる。
我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。
- 参考スコア(独自算出の注目度): 6.214966465876013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connectionist temporal classification (CTC) and attention-based encoder
decoder (AED) joint training has been widely applied in automatic speech
recognition (ASR). Unlike most hybrid models that separately calculate the CTC
and AED losses, our proposed integrated-CTC utilizes the attention mechanism of
AED to guide the output of CTC. In this paper, we employ two fusion methods,
namely direct addition of logits (DAL) and preserving the maximum probability
(PMP). We achieve dimensional consistency by adaptively affine transforming the
attention results to match the dimensions of CTC. To accelerate model
convergence and improve accuracy, we introduce auxiliary loss regularization
for accelerated convergence. Experimental results demonstrate that the DAL
method performs better in attention rescoring, while the PMP method excels in
CTC prefix beam search and greedy search.
- Abstract(参考訳): コネクショニスト時間分類 (ctc) と注意型エンコーダデコーダ (aed) の合同訓練は自動音声認識 (asr) に広く適用されている。
CTCとAEDの損失を別々に計算するほとんどのハイブリッドモデルとは異なり、提案した統合CTCはAEDの注意機構を利用してCTCの出力を誘導する。
本稿では,ロジットの直接付加(DAL)と最大確率保存(PMP)の2つの融合手法を用いる。
我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。
モデル収束を高速化し、精度を向上させるため、加速収束のための補助損失正規化を導入する。
実験の結果, pmp法がctcプレフィックスビーム探索や欲望探索に優れているのに対し, dal法の方が注意喚起に優れることがわかった。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks [63.189632935619535]
予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
論文 参考訳(メタデータ) (2022-10-14T03:55:36Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。