論文の概要: Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation
- arxiv url: http://arxiv.org/abs/2204.02967v1
- Date: Wed, 6 Apr 2022 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:53:52.541943
- Title: Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation
- Title(参考訳): 自己教師付き事前学習とデータ拡張による音声音声合成の強化
- Authors: Sravya Popuri, Peng-Jen Chen, Changhan Wang, Juan Pino, Yossi Adi,
Jiatao Gu, Wei-Ning Hsu, Ann Lee
- Abstract要約: 直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
- 参考スコア(独自算出の注目度): 76.13334392868208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-speech translation (S2ST) models suffer from data scarcity
issues as there exists little parallel S2ST data, compared to the amount of
data available for conventional cascaded systems that consist of automatic
speech recognition (ASR), machine translation (MT), and text-to-speech (TTS)
synthesis. In this work, we explore self-supervised pre-training with unlabeled
speech data and data augmentation to tackle this issue. We take advantage of a
recently proposed speech-to-unit translation (S2UT) framework that encodes
target speech into discrete representations, and transfer pre-training and
efficient partial finetuning techniques that work well for speech-to-text
translation (S2T) to the S2UT domain by studying both speech encoder and
discrete unit decoder pre-training. Our experiments show that self-supervised
pre-training consistently improves model performance compared with multitask
learning with a BLEU gain of 4.3-12.0 under various data setups, and it can be
further combined with data augmentation techniques that apply MT to create
weakly supervised training data. Audio samples are available at:
https://facebookresearch.github.io/speech_translation/enhanced_direct_s2st_units/index.html .
- Abstract(参考訳): s2st(direct speech-to-speech translation)モデルは,asr(automatic speech recognition),mt(machine translation),tts(text-to-speech)合成からなる従来のカスケードシステムで使用可能なデータ量に比べ,並列s2stデータが少ないため,データ不足に苦しむ。
本研究では,ラベルなし音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
我々は、最近提案された音声から単位への翻訳(S2UT)フレームワークを利用して、対象の音声を離散表現に符号化し、音声からテキストへの翻訳(S2T)に適した事前学習と効率的な部分的微調整技術をS2UTドメインに転送する。
実験の結果,マルチタスク学習とBLEUゲインの4.3-12.0に比べ,自己教師付き事前学習はモデル性能を継続的に向上し,MTを応用して弱い教師付きトレーニングデータを生成するデータ拡張手法と組み合わせることができることがわかった。
オーディオサンプルは、https://facebookresearch.github.io/speech_translation/enhanced_direct_s2st_units/index.htmlで入手できる。
関連論文リスト
- Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。