論文の概要: CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end
Approaches towards Data Efficiency and Low Latency
- arxiv url: http://arxiv.org/abs/2005.13326v2
- Date: Wed, 5 Aug 2020 02:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:40:25.823083
- Title: CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end
Approaches towards Data Efficiency and Low Latency
- Title(参考訳): CAT:データ効率と低レイテンシに対するハイブリッドとエンドツーエンドのアプローチを橋渡しするCTC-CRFベースのASRツールキット
- Authors: Keyu An, Hongyu Xiang, Zhijian Ou
- Abstract要約: CAT (CTC-CRF based ASR Toolkit) という,音声認識のための新しいオープンソースツールキットを提案する。
CATはハイブリッドアプローチのデータ効率とE2Eアプローチの単純さを継承し、CTC-CRFの完全な実装を提供する。
実験により、CATはカルディの細調整されたハイブリッドモデルに匹敵する最先端の結果を得ることが示された。
- 参考スコア(独自算出の注目度): 21.799036534331332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new open source toolkit for speech recognition,
named CAT (CTC-CRF based ASR Toolkit). CAT inherits the data-efficiency of the
hybrid approach and the simplicity of the E2E approach, providing a
full-fledged implementation of CTC-CRFs and complete training and testing
scripts for a number of English and Chinese benchmarks. Experiments show CAT
obtains state-of-the-art results, which are comparable to the fine-tuned hybrid
models in Kaldi but with a much simpler training pipeline. Compared to existing
non-modularized E2E models, CAT performs better on limited-scale datasets,
demonstrating its data efficiency. Furthermore, we propose a new method called
contextualized soft forgetting, which enables CAT to do streaming ASR without
accuracy degradation. We hope CAT, especially the CTC-CRF based framework and
software, will be of broad interest to the community, and can be further
explored and improved.
- Abstract(参考訳): 本稿では,CAT (CTC-CRF based ASR Toolkit) という,音声認識のための新しいオープンソースツールキットを提案する。
CATはハイブリッドアプローチのデータ効率とE2Eアプローチの単純さを継承し、CTC-CRFの本格的な実装と英語と中国語のベンチマークのための完全なトレーニングとテストスクリプトを提供する。
実験では、CATはカルディの細調整されたハイブリッドモデルに匹敵する最先端の結果を得るが、より単純なトレーニングパイプラインを持つ。
既存の非モジュール化E2Eモデルと比較して、CATは限られたスケールのデータセットでより良いパフォーマンスを示し、データの効率を実証している。
さらに,CATが精度の劣化を伴わずにストリーミングASRを行うことのできる,文脈的ソフト・リフレクションと呼ばれる新しい手法を提案する。
CAT、特にCTC-CRFベースのフレームワークとソフトウェアがコミュニティに広く関心を持ち、さらなる調査と改善を期待しています。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Improving CTC-AED model with integrated-CTC and auxiliary loss
regularization [6.214966465876013]
自動音声認識(ASR)において、コネクショニスト時間的分類とアテンションベースエンコーダデコーダ(AED)共同訓練が広く適用されている。
本稿では,2つの融合法,すなわち直接ロジット加算(DAL)と最大確率保存(PMP)を用いる。
我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。
論文 参考訳(メタデータ) (2023-08-15T03:31:47Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。