論文の概要: Unit-based Speech-to-Speech Translation Without Parallel Data
- arxiv url: http://arxiv.org/abs/2305.15405v1
- Date: Wed, 24 May 2023 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:43:55.140723
- Title: Unit-based Speech-to-Speech Translation Without Parallel Data
- Title(参考訳): 並列データを用いない単位系音声対音声翻訳
- Authors: Anuj Diwan, Anirudh Srinivasan, David Harwath, Eunsol Choi
- Abstract要約: ソースとターゲット言語間の並列データに依存しない教師なし音声音声翻訳システム(S2ST)を提案する。
提案手法は,ソースおよびターゲット言語音声信号を自動で検出された離散単位にマッピングし,教師なし単位対単位機械翻訳として問題を再構成する。
合成話者のEuroparl-ST英語とドイツ語の評価セットについて,この制約されたシナリオ下では単位ベース翻訳が可能であることが確認された。
- 参考スコア(独自算出の注目度): 35.77281233299371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an unsupervised speech-to-speech translation (S2ST) system that
does not rely on parallel data between the source and target languages. Our
approach maps source and target language speech signals into automatically
discovered, discrete units and reformulates the problem as unsupervised
unit-to-unit machine translation. We develop a three-step training procedure
that involves (a) pre-training an unit-based encoder-decoder language model
with a denoising objective (b) training it with word-by-word translated
utterance pairs created by aligning monolingual text embedding spaces and (c)
running unsupervised backtranslation bootstrapping off of the initial
translation model. Our approach avoids mapping the speech signal into text and
uses speech-to-unit and unit-to-speech models instead of automatic speech
recognition and text to speech models. We evaluate our model on
synthetic-speaker Europarl-ST English-German and German-English evaluation
sets, finding that unit-based translation is feasible under this constrained
scenario, achieving 9.29 ASR-BLEU in German to English and 8.07 in English to
German.
- Abstract(参考訳): ソースとターゲット言語間の並列データに依存しない教師なし音声音声翻訳システム(S2ST)を提案する。
提案手法は,音源および対象言語音声信号を自動検出された離散単位にマッピングし,教師なし単位間機械翻訳として再編成する。
我々は3段階の訓練手順を開発する。
(a)特定目的語を用いた単位ベースエンコーダ・デコーダ言語モデルの事前学習
(b)単言語テキスト埋め込み空間を整列して作成した語間翻訳音声ペアによる訓練
(c)初期翻訳モデルから非教師なし翻訳ブートストラップを実行する。
提案手法では,音声信号のテキストへのマッピングを回避し,音声認識やテキストを音声モデルに置き換える代わりに,音声単位と単位音声モデルを用いる。
合成話者Europarl-ST とドイツ語-英語評価セットを用いて,この制約されたシナリオ下では単位ベース翻訳が可能であり,ドイツ語では9.29 ASR-BLEU,ドイツ語では8.07を達成できた。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。