論文の概要: Efficient CTC Regularization via Coarse Labels for End-to-End Speech
Translation
- arxiv url: http://arxiv.org/abs/2302.10871v1
- Date: Tue, 21 Feb 2023 18:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 13:58:39.147160
- Title: Efficient CTC Regularization via Coarse Labels for End-to-End Speech
Translation
- Title(参考訳): エンドツーエンド音声翻訳のための粗ラベルによる効率的なCTC正規化
- Authors: Biao Zhang and Barry Haddow and Rico Sennrich
- Abstract要約: 我々は、正規化のためのコネクショニスト時間分類(CTC)のための真の語彙ラベルの必要性を再検討する。
CTCの粗いラベリングを提案する。このラベリングは、単語ラベルをtruncation, division or modulo (MOD) 操作などの単純な規則でマージする。
この結果から,CoLaCTCは文字起こしやラベリングの翻訳に係わらず,CTC正則化に成功していることが明らかとなった。
- 参考スコア(独自算出の注目度): 48.203394370942505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For end-to-end speech translation, regularizing the encoder with the
Connectionist Temporal Classification (CTC) objective using the source
transcript or target translation as labels can greatly improve quality metrics.
However, CTC demands an extra prediction layer over the vocabulary space,
bringing in nonnegligible model parameters and computational overheads,
although this layer is typically not used for inference. In this paper, we
re-examine the need for genuine vocabulary labels for CTC for regularization
and explore strategies to reduce the CTC label space, targeting improved
efficiency without quality degradation. We propose coarse labeling for CTC
(CoLaCTC), which merges vocabulary labels via simple heuristic rules, such as
using truncation, division or modulo (MOD) operations. Despite its simplicity,
our experiments on 4 source and 8 target languages show that CoLaCTC with MOD
particularly can compress the label space aggressively to 256 and even further,
gaining training efficiency (1.18x ~ 1.77x speedup depending on the original
vocabulary size) yet still delivering comparable or better performance than the
CTC baseline. We also show that CoLaCTC successfully generalizes to CTC
regularization regardless of using transcript or translation for labeling.
- Abstract(参考訳): エンド・ツー・エンドの音声翻訳では、コーダをコネクショナリスト時間分類(CTC)の目的とすることで、ソースの転写やターゲットの翻訳をラベルとして使用することで、品質指標を大幅に改善することができる。
しかし、CTCは語彙空間に余分な予測層を要求し、非無視のモデルパラメータと計算オーバーヘッドをもたらすが、この層は通常推論には使われない。
本稿では, CTC の正規化のための真の語彙ラベルの必要性を再検討し, CTC ラベル空間を削減し, 品質劣化を伴わない効率の向上を目標とする戦略を検討する。
本稿では,単語ラベルを単純なヒューリスティックなルールでマージするctc (colactc) の粗いラベリングを提案する。
その単純さにもかかわらず、4つのソースと8つのターゲット言語に関する実験では、特にmodのcollactcはラベル空間を256まで積極的に圧縮でき、さらにトレーニング効率(1.18x ~ 1.77x スピードアップ)を向上できるが、ctcベースラインと同等あるいは優れたパフォーマンスを提供する。
また,CoLaCTCは転写やラベリングの翻訳に係わらず,CTC正則化に成功していることを示す。
関連論文リスト
- CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation [36.417792361080615]
CTC-GMM (Connectionist Temporal Classification Guided modality matching) という手法を導入する。
この手法は、CTCを用いて、対応するテキストシーケンスと一致するコンパクトな埋め込みシーケンスに音声シーケンスを圧縮する。
FLEURS と CoVoST2 を用いて評価した結果,CTC-GMM による翻訳精度は,それぞれ 13.9% と 6.4% 向上した。
論文 参考訳(メタデータ) (2024-10-07T15:58:03Z) - CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。