論文の概要: Improving Speech-to-Speech Translation Through Unlabeled Text
- arxiv url: http://arxiv.org/abs/2210.14514v1
- Date: Wed, 26 Oct 2022 06:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:35:30.984835
- Title: Improving Speech-to-Speech Translation Through Unlabeled Text
- Title(参考訳): ラベルなしテキストによる音声音声合成の改善
- Authors: Xuan-Phi Nguyen, Sravya Popuri, Changhan Wang, Yun Tang, Ilia Kulikov
and Hongyu Gong
- Abstract要約: 直接音声音声変換(S2ST)は、翻訳パラダイムにおいて最も難しい問題の一つである。
そこで本稿では,S2STデータを生成するために,異なる言語からの大量の未ラベルテキストを効果的に活用する方法を提案する。
- 参考スコア(独自算出の注目度): 39.28273721043411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct speech-to-speech translation (S2ST) is among the most challenging
problems in the translation paradigm due to the significant scarcity of S2ST
data. While effort has been made to increase the data size from unlabeled
speech by cascading pretrained speech recognition (ASR), machine translation
(MT) and text-to-speech (TTS) models; unlabeled text has remained relatively
under-utilized to improve S2ST. We propose an effective way to utilize the
massive existing unlabeled text from different languages to create a large
amount of S2ST data to improve S2ST performance by applying various acoustic
effects to the generated synthetic data. Empirically our method outperforms the
state of the art in Spanish-English translation by up to 2 BLEU. Significant
gains by the proposed method are demonstrated in extremely low-resource
settings for both Spanish-English and Russian-English translations.
- Abstract(参考訳): 直接音声音声変換(S2ST)は、S2STデータの著しい不足により、翻訳パラダイムにおいて最も難しい問題の一つである。
事前訓練された音声認識(ASR)、機械翻訳(MT)、テキスト音声(TTS)モデルをカスケードすることで、ラベルなし音声からデータサイズを増大させる努力がなされているが、ラベルなしテキストはS2STを改善するために比較的未利用のままである。
本稿では,様々な言語から既存のラベルなしテキストを効率的に活用し,大量のs2stデータを作成し,生成した合成データに各種音響効果を適用し,s2st性能を向上させるための効果的な方法を提案する。
我々の手法は、スペイン語と英語の翻訳において、最大2 BLEUで芸術の状態を上回ります。
提案手法は, スペイン語とロシア語の両方の翻訳において, 極めて低リソース環境において有意な利得を示した。
関連論文リスト
- Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech
Translation [29.103046944157484]
S2STトランスフォーマーベースラインを構築し、トランスラトトロンを上回ります。
疑似ラベルによる外部データの利用と,フィッシャー・イングリッシュ・トゥ・スパニッシュ・テスト・セットにおける新たな最先端結果の取得を行う。
論文 参考訳(メタデータ) (2022-05-18T15:24:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Leveraging unsupervised and weakly-supervised data to improve direct
speech-to-speech translation [32.24706553793383]
中間的なテキスト表現に依存しない音声音声翻訳(S2ST)は、急速に研究のフロンティアになりつつある。
近年の研究では、このような直接S2STシステムの性能が、同等のデータセットでトレーニングされた場合、従来のカスケードS2STシステムに近づいていることが示されている。
本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-24T21:06:15Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。