論文の概要: Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech
Translation
- arxiv url: http://arxiv.org/abs/2205.08993v1
- Date: Wed, 18 May 2022 15:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 13:28:30.177601
- Title: Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech
Translation
- Title(参考訳): Pseudo-labeled データの活用による直接音声合成の改善
- Authors: Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Qibing Bai, Yu
Zhang
- Abstract要約: S2STトランスフォーマーベースラインを構築し、トランスラトトロンを上回ります。
疑似ラベルによる外部データの利用と,フィッシャー・イングリッシュ・トゥ・スパニッシュ・テスト・セットにおける新たな最先端結果の取得を行う。
- 参考スコア(独自算出の注目度): 29.103046944157484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Speech-to-speech translation (S2ST) has drawn more and more attention
recently. The task is very challenging due to data scarcity and complex
speech-to-speech mapping. In this paper, we report our recent achievements in
S2ST. Firstly, we build a S2ST Transformer baseline which outperforms the
original Translatotron. Secondly, we utilize the external data by
pseudo-labeling and obtain a new state-of-the-art result on the Fisher
English-to-Spanish test set. Indeed, we exploit the pseudo data with a
combination of popular techniques which are not trivial when applied to S2ST.
Moreover, we evaluate our approach on both syntactically similar
(Spanish-English) and distant (English-Chinese) language pairs. Our
implementation is available at
https://github.com/fengpeng-yue/speech-to-speech-translation.
- Abstract(参考訳): 近年,直接音声音声翻訳 (S2ST) が注目されている。
データ不足と複雑な音声音声マッピングのため、このタスクは非常に難しい。
本稿では,S2STにおける最近の成果を報告する。
まず、最初のトランスラトトロンよりも優れたs2stトランスフォーマーベースラインを構築する。
次に,疑似ラベルによる外部データを用いて,フィッシャー・イングリッシュ・ツー・スパニッシュテストセットにおける新たな最先端結果を得る。
実際、s2stに適用すると自明でない一般的なテクニックの組み合わせで擬似データを利用する。
さらに,構文的に類似した(スペイン語-英語)言語対と遠方の(英語-中国語)言語対に対するアプローチを評価した。
実装はhttps://github.com/fengpeng-yue/speech-to-speech-translationで利用可能です。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Improving Speech-to-Speech Translation Through Unlabeled Text [39.28273721043411]
直接音声音声変換(S2ST)は、翻訳パラダイムにおいて最も難しい問題の一つである。
そこで本稿では,S2STデータを生成するために,異なる言語からの大量の未ラベルテキストを効果的に活用する方法を提案する。
論文 参考訳(メタデータ) (2022-10-26T06:52:19Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。