論文の概要: Generating Synthetic Speech from SpokenVocab for Speech Translation
- arxiv url: http://arxiv.org/abs/2210.08174v1
- Date: Sat, 15 Oct 2022 03:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:13:35.769148
- Title: Generating Synthetic Speech from SpokenVocab for Speech Translation
- Title(参考訳): 音声翻訳のための音声合成音声生成
- Authors: Jinming Zhao, Gholamreza Haffar, Ehsan Shareghi
- Abstract要約: エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。
1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
- 参考スコア(独自算出の注目度): 18.525896864903416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training end-to-end speech translation (ST) systems requires sufficiently
large-scale data, which is unavailable for most language pairs and domains. One
practical solution to the data scarcity issue is to convert machine translation
data (MT) to ST data via text-to-speech (TTS) systems. Yet, using TTS systems
can be tedious and slow, as the conversion needs to be done for each MT
dataset. In this work, we propose a simple, scalable and effective data
augmentation technique, i.e., SpokenVocab, to convert MT data to ST data
on-the-fly. The idea is to retrieve and stitch audio snippets from a
SpokenVocab bank according to words in an MT sequence. Our experiments on
multiple language pairs from Must-C show that this method outperforms strong
baselines by an average of 1.83 BLEU scores, and it performs equally well as
TTS-generated speech. We also showcase how SpokenVocab can be applied in
code-switching ST for which often no TTS systems exit. Our code is available at
https://github.com/mingzi151/SpokenVocab
- Abstract(参考訳): エンドツーエンド音声翻訳(st)システムの訓練には十分な大規模データが必要であり、ほとんどの言語ペアやドメインでは利用できない。
データ不足問題に対する実用的な解決策の1つは、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
しかし、MTデータセットごとに変換を行う必要があるため、TSシステムの使用は面倒で遅い可能性がある。
本研究では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
そのアイデアは、MTシーケンスの単語に従ってSpkenVocab銀行から音声スニペットを検索し、縫い合わせることである。
Must-C の複数言語対に関する実験により,この手法は平均 1.83 BLEU スコアで強いベースラインを上回り,TTS 生成音声と同等に動作することを示した。
また、ttsシステムがない場合が多いコードスイッチングstにおいて、speakvocabをどのように適用できるかを示す。
私たちのコードはhttps://github.com/mingzi151/SpokenVocabで利用可能です。
関連論文リスト
- Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Selective Data Augmentation for Robust Speech Translation [17.56859840101276]
英ヒンディー語(en-hi)STのe2eアーキテクチャを提案する。
We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text。
この結果から, MTデータのブルート力増強に比べて, ST(BLEU) スコアが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-03-22T19:36:07Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。