論文の概要: CTC Alignments Improve Autoregressive Translation
- arxiv url: http://arxiv.org/abs/2210.05200v1
- Date: Tue, 11 Oct 2022 07:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:15:25.008884
- Title: CTC Alignments Improve Autoregressive Translation
- Title(参考訳): CTCアライメントは自己回帰翻訳を改善する
- Authors: Brian Yan, Siddharth Dalmia, Yosuke Higuchi, Graham Neubig, Florian
Metze, Alan W Black, Shinji Watanabe
- Abstract要約: 我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
- 参考スコア(独自算出の注目度): 145.90587287444976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connectionist Temporal Classification (CTC) is a widely used approach for
automatic speech recognition (ASR) that performs conditionally independent
monotonic alignment. However for translation, CTC exhibits clear limitations
due to the contextual and non-monotonic nature of the task and thus lags behind
attentional decoder approaches in terms of translation quality. In this work,
we argue that CTC does in fact make sense for translation if applied in a joint
CTC/attention framework wherein CTC's core properties can counteract several
key weaknesses of pure-attention models during training and decoding. To
validate this conjecture, we modify the Hybrid CTC/Attention model originally
proposed for ASR to support text-to-text translation (MT) and speech-to-text
translation (ST). Our proposed joint CTC/attention models outperform
pure-attention baselines across six benchmark translation tasks.
- Abstract(参考訳): コネクショニスト時間分類(ctc)は、条件独立な単調アライメントを実行する自動音声認識(asr)に広く用いられているアプローチである。
しかし、翻訳においては、CTCはタスクの文脈的・非単調な性質のために明確な制限を示しており、翻訳品質の観点から注意深いデコーダアプローチに遅れが生じる。
本稿では,CTCのコア特性がトレーニングや復号中に純粋保持モデルのいくつかの重要な弱点に対処できる共同CTC/アテンションフレームワークに適用した場合,CTCは実際に翻訳に意味があると主張する。
この仮説を検証するために、ASRが提案したハイブリッドCTC/Attentionモデルを変更し、テキスト間翻訳(MT)と音声間翻訳(ST)をサポートする。
提案するジョイントctc/attentionモデルは、6つのベンチマーク翻訳タスクでpure-attentionベースラインを上回っている。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Efficient CTC Regularization via Coarse Labels for End-to-End Speech
Translation [48.203394370942505]
我々は、正規化のためのコネクショニスト時間分類(CTC)のための真の語彙ラベルの必要性を再検討する。
CTCの粗いラベリングを提案する。このラベリングは、単語ラベルをtruncation, division or modulo (MOD) 操作などの単純な規則でマージする。
この結果から,CoLaCTCは文字起こしやラベリングの翻訳に係わらず,CTC正則化に成功していることが明らかとなった。
論文 参考訳(メタデータ) (2023-02-21T18:38:41Z) - BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model [40.16332045057132]
BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
論文 参考訳(メタデータ) (2022-10-29T18:19:44Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。