論文の概要: CTC Variations Through New WFST Topologies
- arxiv url: http://arxiv.org/abs/2110.03098v1
- Date: Wed, 6 Oct 2021 23:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:59:07.016522
- Title: CTC Variations Through New WFST Topologies
- Title(参考訳): 新しいWFSTトポロジーによるCTC変動
- Authors: Aleksandr Laptev, Somshubra Majumdar, Boris Ginsburg
- Abstract要約: 本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
- 参考スコア(独自算出の注目度): 79.94035631317395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents novel Weighted Finite-State Transducer (WFST) topologies
to implement Connectionist Temporal Classification (CTC)-like algorithms for
automatic speech recognition. Three new CTC variants are proposed: (1) the
"compact-CTC", in which direct transitions between units are replaced with
<epsilon> back-off transitions; (2) the "minimal-CTC", that only adds <blank>
self-loops when used in WFST-composition; and (3) "selfless-CTC", that
disallows self-loop for non-blank units. The new CTC variants have several
benefits, such as reducing decoding graph size and GPU memory required for
training while keeping model accuracy.
- Abstract(参考訳): 本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移を<epsilon>バックオフ遷移に置き換える"compact-CTC",(2)WFSTコンポジションで使用する場合に<blank>自己ループのみを追加する"minimal-CTC",(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
新しいCTC変種には、モデルの精度を維持しながらトレーニングに必要なデコードグラフサイズとGPUメモリの削減など、いくつかのメリットがある。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。