論文の概要: SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech
Translation
- arxiv url: http://arxiv.org/abs/2002.12231v1
- Date: Thu, 27 Feb 2020 16:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 09:18:38.128183
- Title: SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech
Translation
- Title(参考訳): SkinAugment:自動音声翻訳のための自動符号化話者変換
- Authors: Arya D. McCarthy and Liezl Puzon and Juan Pino
- Abstract要約: 自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。
この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。
提案手法は,英語$to$ Frenchと英語$to$Romanian Automatic Speech Translation (AST)タスクのSpecAugmentと比較した。
- 参考スコア(独自算出の注目度): 12.292167129361825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose autoencoding speaker conversion for training data augmentation in
automatic speech translation. This technique directly transforms an audio
sequence, resulting in audio synthesized to resemble another speaker's voice.
Our method compares favorably to SpecAugment on English$\to$French and
English$\to$Romanian automatic speech translation (AST) tasks as well as on a
low-resource English automatic speech recognition (ASR) task. Further, in
ablations, we show the benefits of both quantity and diversity in augmented
data. Finally, we show that we can combine our approach with augmentation by
machine-translated transcripts to obtain a competitive end-to-end AST model
that outperforms a very strong cascade model on an English$\to$French AST task.
Our method is sufficiently general that it can be applied to other speech
generation and analysis tasks.
- Abstract(参考訳): 自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。
この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。
提案手法は,英語のSpecAugment on English$\to$ French and English$\to$Romanian Automatic Speech Translation (AST) タスクと低リソースの英語自動音声認識 (ASR) タスクとを比較した。
さらに,アブレーションにおいて,拡張データの量と多様性の双方の利点を示す。
最後に、我々のアプローチと機械翻訳による拡張を組み合わせることで、英語$\to$ French ASTタスクにおいて非常に強力なカスケードモデルより優れた競合するエンドツーエンドASTモデルが得られることを示す。
提案手法は,他の音声生成・分析タスクに適用できるほど一般的である。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。