論文の概要: CTC-based Non-autoregressive Speech Translation
- arxiv url: http://arxiv.org/abs/2305.17358v1
- Date: Sat, 27 May 2023 03:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:04:41.469571
- Title: CTC-based Non-autoregressive Speech Translation
- Title(参考訳): CTCに基づく非自己回帰音声翻訳
- Authors: Chen Xu, Xiaoqian Liu, Xiaowen Liu, Qingxuan Sun, Yuhao Zhang, Murun
Yang, Qianqian Dong, Tom Ko, Mingxuan Wang, Tong Xiao, Anxiang Ma and Jingbo
Zhu
- Abstract要約: 非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
- 参考スコア(独自算出の注目度): 51.37920141751813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining end-to-end speech translation (ST) and non-autoregressive (NAR)
generation is promising in language and speech processing for their advantages
of less error propagation and low latency. In this paper, we investigate the
potential of connectionist temporal classification (CTC) for non-autoregressive
speech translation (NAST). In particular, we develop a model consisting of two
encoders that are guided by CTC to predict the source and target texts,
respectively. Introducing CTC into NAST on both language sides has obvious
challenges: 1) the conditional independent generation somewhat breaks the
interdependency among tokens, and 2) the monotonic alignment assumption in
standard CTC does not hold in translation tasks. In response, we develop a
prediction-aware encoding approach and a cross-layer attention approach to
address these issues. We also use curriculum learning to improve convergence of
training. Experiments on the MuST-C ST benchmarks show that our NAST model
achieves an average BLEU score of 29.5 with a speed-up of 5.67$\times$, which
is comparable to the autoregressive counterpart and even outperforms the
previous best result of 0.9 BLEU points.
- Abstract(参考訳): エンドツーエンドの音声翻訳(ST)と非自己回帰(NAR)生成の組み合わせは、誤りの伝播の低減と低レイテンシの利点のために、言語と音声処理において有望である。
本稿では,非自己回帰音声翻訳(NAST)における接続性時間分類(CTC)の可能性を検討する。
特に,ctcで誘導される2つのエンコーダからなるモデルを開発し,ソースとターゲットテキストをそれぞれ予測する。
CTCをNASTに両言語で導入することは、明らかな課題である。
1) 条件付き独立世代は、トークン間の相互依存を多少壊し、
2)標準CTCにおける単調アライメントの仮定は翻訳タスクでは成立しない。
そこで我々は,これらの問題に対処するために,予測認識エンコーディング手法と層間注意アプローチを開発した。
また、カリキュラム学習を用いて学習の収束を改善する。
MuST-C STベンチマークの実験では、NASTモデルの平均BLEUスコアは29.5で、スピードアップは5.67$\times$であり、これは自己回帰に匹敵するものであり、0.9BLEUポイントの前の最高の結果よりも優れていた。
関連論文リスト
- CTC-based Non-autoregressive Textless Speech-to-Speech Translation [38.99922762754443]
音声から音声への直接翻訳(S2ST)は、優れた翻訳品質を達成しているが、しばしば遅い復号化の課題に直面している。
近年、非自己回帰モデル(NAR)にデコーディングを高速化する研究もあるが、翻訳品質は一般的に自己回帰モデルに大きく遅れている。
本稿では,S2STにおけるCTCに基づくNARモデルの性能について検討する。
論文 参考訳(メタデータ) (2024-06-11T15:00:33Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。
最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。
本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition [46.41096278421193]
BiL-CTC+は、ソース言語とターゲット言語とのギャップを埋める。
また,音声認識性能も大幅に向上した。
論文 参考訳(メタデータ) (2023-09-21T16:28:42Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。