論文の概要: TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation
- arxiv url: http://arxiv.org/abs/2205.12523v1
- Date: Wed, 25 May 2022 06:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:31:16.924593
- Title: TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation
- Title(参考訳): TranSpeech:バイラテラル摂動を用いた音声から音声への翻訳
- Authors: Rongjie Huang, Zhou Zhao, Jinglin Liu, Huadai Liu, Yi Ren, Lichao
Zhang, Jinzheng He
- Abstract要約: TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 61.564874831498145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-speech translation (S2ST) systems leverage recent progress
in speech representation learning, where a sequence of discrete representations
(units) derived in a self-supervised manner, are predicted from the model and
passed to a vocoder for speech synthesis, still facing the following
challenges: 1) Acoustic multimodality: the discrete units derived from speech
with same content could be indeterministic due to the acoustic property (e.g.,
rhythm, pitch, and energy), which causes deterioration of translation accuracy;
2) high latency: current S2ST systems utilize autoregressive models which
predict each unit conditioned on the sequence previously generated, failing to
take full advantage of parallelism. In this work, we propose TranSpeech, a
speech-to-speech translation model with bilateral perturbation. To alleviate
the acoustic multimodal problem, we propose bilateral perturbation, which
consists of the style normalization and information enhancement stages, to
learn only the linguistic information from speech samples and generate more
deterministic representations. With reduced multimodality, we step forward and
become the first to establish a non-autoregressive S2ST technique, which
repeatedly masks and predicts unit choices and produces high-accuracy results
in just a few cycles. Experimental results on three language pairs demonstrate
the state-of-the-art results by up to 2.5 BLEU points over the best
publicly-available textless S2ST baseline. Moreover, TranSpeech shows a
significant improvement in inference latency, enabling speedup up to 21.4x than
autoregressive technique. Audio samples are available at
\url{https://TranSpeech.github.io/}
- Abstract(参考訳): direct speech-to-speech translation (s2st) システムは、音声表現学習の最近の進歩を活用しており、このモデルから導出される離散表現(ユニット)のシーケンスを予測し、音声合成のためのvocoderに渡す。
1) 音響マルチモーダリティ:同一内容の音声から派生した離散単位は、翻訳精度の低下を引き起こす音響特性(例えば、リズム、ピッチ、エネルギー)により決定的でない可能性がある。
2) 待ち時間: 現在のS2STシステムでは, 並列性を十分に活用できず, 以前に生成したシーケンス上で各ユニットの状態を予測する自己回帰モデルを採用している。
本研究では,両側摂動を伴う音声音声翻訳モデルであるTranSpeechを提案する。
音響的マルチモーダル問題を緩和するため,音声サンプルから言語情報のみを学習し,より決定論的表現を生成するために,スタイル正規化と情報強調段階からなる双方向摂動を提案する。
マルチモダリティの低減により、我々はまず、単体選択を繰り返しマスキングし予測し、数サイクルで高精度な結果を生み出す非自己回帰型S2ST技術を確立する。
3つの言語ペアの実験結果は、公開可能なテキストレスS2STベースラインに対して2.5 BLEUポイントの最先端結果を示している。
さらにtranspeechは推論遅延を大幅に改善し、自動回帰技術よりも21.4倍の高速化を実現している。
オーディオサンプルは \url{https://TranSpeech.github.io/} で入手できる。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Duplex Diffusion Models Improve Speech-to-Speech Translation [1.4649095013539173]
音声から音声への翻訳は、自然に2つの方向を持つシーケンスからシーケンスまでの学習タスクである。
両面に拡散確率モデルを適用した2相拡散モデルを提案する。
我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。
論文 参考訳(メタデータ) (2023-05-22T01:39:40Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。