論文の概要: Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring
- arxiv url: http://arxiv.org/abs/2109.04411v1
- Date: Thu, 9 Sep 2021 16:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:05:46.930912
- Title: Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring
- Title(参考訳): 並列自己回帰法による非自己回帰的エンドツーエンド音声翻訳
- Authors: Hirofumi Inaguma, Yosuke Higuchi, Kevin Duh, Tatsuya Kawahara, Shinji
Watanabe
- Abstract要約: 本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
- 参考スコア(独自算出の注目度): 83.32560748324667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article describes an efficient end-to-end speech translation (E2E-ST)
framework based on non-autoregressive (NAR) models. End-to-end speech
translation models have several advantages over traditional cascade systems
such as inference latency reduction. However, conventional AR decoding methods
are not fast enough because each token is generated incrementally. NAR models,
however, can accelerate the decoding speed by generating multiple tokens in
parallel on the basis of the token-wise conditional independence assumption. We
propose a unified NAR E2E-ST framework called Orthros, which has an NAR decoder
and an auxiliary shallow AR decoder on top of the shared encoder. The auxiliary
shallow AR decoder selects the best hypothesis by rescoring multiple candidates
generated from the NAR decoder in parallel (parallel AR rescoring). We adopt
conditional masked language model (CMLM) and a connectionist temporal
classification (CTC)-based model as NAR decoders for Orthros, referred to as
Orthros-CMLM and Orthros-CTC, respectively. We also propose two training
methods to enhance the CMLM decoder. Experimental evaluations on three
benchmark datasets with six language directions demonstrated that Orthros
achieved large improvements in translation quality with a very small overhead
compared with the baseline NAR model. Moreover, the Conformer encoder
architecture enabled large quality improvements, especially for CTC-based
models. Orthros-CTC with the Conformer encoder increased decoding speed by
3.63x on CPU with translation quality comparable to that of an AR model.
- Abstract(参考訳): 本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
エンドツーエンドの音声翻訳モデルは、推論遅延の低減など、従来のカスケードシステムに対していくつかの利点がある。
しかし、従来のar復号法は、各トークンが漸進的に生成されるため、十分に高速ではない。
しかし、NARモデルはトークンワイド条件独立仮定に基づいて複数のトークンを並列に生成することでデコード速度を加速することができる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
補助浅層ARデコーダは、NARデコーダから生成された複数の候補を並列(並列ARデコーダ)に再描画することで、最良の仮説を選択する。
我々は,Orthros-CMLM と Orthros-CTC と呼ばれる Orthros の NAR デコーダとして,条件付きマスク言語モデル (CMLM) と接続時分類モデル (CTC) を採用している。
また,CMLMデコーダの強化のための2つのトレーニング手法を提案する。
6つの言語方向を持つ3つのベンチマークデータセットの実験的評価により、OrthrosはベースラインのNARモデルと比較して非常に小さなオーバーヘッドで翻訳品質を大幅に改善した。
さらに、コンフォーマエンコーダアーキテクチャは、特にctcベースのモデルにおいて、大きな品質改善を可能にした。
Conformerエンコーダを搭載したOrthros-CTCは、ARモデルに匹敵する翻訳品質を持つCPUのデコード速度を3.63倍に向上させた。
関連論文リスト
- CTC-based Non-autoregressive Textless Speech-to-Speech Translation [38.99922762754443]
音声から音声への直接翻訳(S2ST)は、優れた翻訳品質を達成しているが、しばしば遅い復号化の課題に直面している。
近年、非自己回帰モデル(NAR)にデコーディングを高速化する研究もあるが、翻訳品質は一般的に自己回帰モデルに大きく遅れている。
本稿では,S2STにおけるCTCに基づくNARモデルの性能について検討する。
論文 参考訳(メタデータ) (2024-06-11T15:00:33Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。