論文の概要: UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
- arxiv url: http://arxiv.org/abs/2212.08055v1
- Date: Thu, 15 Dec 2022 18:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:36:10.058286
- Title: UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
- Title(参考訳): UnitY: 離散単位を用いた2パス直接音声合成
- Authors: Hirofumi Inaguma, Sravya Popuri, Ilia Kulikov, Peng-Jen Chen, Changhan
Wang, Yu-An Chung, Yun Tang, Ann Lee, Shinji Watanabe, Juan Pino
- Abstract要約: 本稿では、まずテキスト表現を生成し、離散音響単位を予測する、2パス直接S2STアーキテクチャであるtextit UnitYを提案する。
我々は,第1パスデコーダのサブワード予測,高度な2パスデコーダアーキテクチャ設計と探索戦略,正規化の訓練により,モデル性能を向上させる。
- 参考スコア(独自算出の注目度): 64.61596752343837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-speech translation (S2ST), in which all components can be
optimized jointly, is advantageous over cascaded approaches to achieve fast
inference with a simplified pipeline. We present a novel two-pass direct S2ST
architecture, {\textit UnitY}, which first generates textual representations
and predicts discrete acoustic units subsequently. We enhance the model
performance by subword prediction in the first-pass decoder, advanced two-pass
decoder architecture design and search strategy, and better training
regularization. To leverage large amounts of unlabeled text data, we pre-train
the first-pass text decoder based on the self-supervised denoising
auto-encoding task. Experimental evaluations on benchmark datasets at various
data scales demonstrate that UnitY outperforms a single-pass speech-to-unit
translation model by 2.5-4.2 ASR-BLEU with 2.83x decoding speed-up. We show
that the proposed methods boost the performance even when predicting
spectrogram in the second pass. However, predicting discrete units achieves
2.51x decoding speed-up compared to that case.
- Abstract(参考訳): 全てのコンポーネントを共同で最適化できるdirect speech-to-speech translation (s2st)は、単純なパイプラインで高速な推論を実現するためにカスケードされたアプローチよりも有利である。
本稿では,まずテキスト表現を生成し,その後に離散音響単位を予測する2パス直接S2STアーキテクチャを提案する。
我々は,第1パスデコーダのサブワード予測,高度な2パスデコーダアーキテクチャ設計と探索戦略,正規化の訓練によりモデル性能を向上させる。
ラベルなしテキストデータを大量に活用するために,自己教師付きデノイジング自動エンコーディングタスクに基づいて,第1パステキストデコーダを事前学習する。
様々なデータスケールでのベンチマークデータセットの実験的評価により、UnitYは2.5-4.2 ASR-BLEUと2.83倍のデコード速度で単一パスの音声-単位翻訳モデルより優れていることが示された。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
しかし、離散単位の予測は2.51倍の速度アップを達成している。
関連論文リスト
- DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。