論文の概要: Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation
- arxiv url: http://arxiv.org/abs/2204.02967v1
- Date: Wed, 6 Apr 2022 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:53:52.541943
- Title: Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation
- Title(参考訳): 自己教師付き事前学習とデータ拡張による音声音声合成の強化
- Authors: Sravya Popuri, Peng-Jen Chen, Changhan Wang, Juan Pino, Yossi Adi,
Jiatao Gu, Wei-Ning Hsu, Ann Lee
- Abstract要約: 直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
- 参考スコア(独自算出の注目度): 76.13334392868208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-speech translation (S2ST) models suffer from data scarcity
issues as there exists little parallel S2ST data, compared to the amount of
data available for conventional cascaded systems that consist of automatic
speech recognition (ASR), machine translation (MT), and text-to-speech (TTS)
synthesis. In this work, we explore self-supervised pre-training with unlabeled
speech data and data augmentation to tackle this issue. We take advantage of a
recently proposed speech-to-unit translation (S2UT) framework that encodes
target speech into discrete representations, and transfer pre-training and
efficient partial finetuning techniques that work well for speech-to-text
translation (S2T) to the S2UT domain by studying both speech encoder and
discrete unit decoder pre-training. Our experiments show that self-supervised
pre-training consistently improves model performance compared with multitask
learning with a BLEU gain of 4.3-12.0 under various data setups, and it can be
further combined with data augmentation techniques that apply MT to create
weakly supervised training data. Audio samples are available at:
https://facebookresearch.github.io/speech_translation/enhanced_direct_s2st_units/index.html .
- Abstract(参考訳): s2st(direct speech-to-speech translation)モデルは,asr(automatic speech recognition),mt(machine translation),tts(text-to-speech)合成からなる従来のカスケードシステムで使用可能なデータ量に比べ,並列s2stデータが少ないため,データ不足に苦しむ。
本研究では,ラベルなし音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
我々は、最近提案された音声から単位への翻訳(S2UT)フレームワークを利用して、対象の音声を離散表現に符号化し、音声からテキストへの翻訳(S2T)に適した事前学習と効率的な部分的微調整技術をS2UTドメインに転送する。
実験の結果,マルチタスク学習とBLEUゲインの4.3-12.0に比べ,自己教師付き事前学習はモデル性能を継続的に向上し,MTを応用して弱い教師付きトレーニングデータを生成するデータ拡張手法と組み合わせることができることがわかった。
オーディオサンプルは、https://facebookresearch.github.io/speech_translation/enhanced_direct_s2st_units/index.htmlで入手できる。
関連論文リスト
- Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。