論文の概要: Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models
- arxiv url: http://arxiv.org/abs/2305.15405v2
- Date: Tue, 20 Feb 2024 18:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:31:34.371853
- Title: Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models
- Title(参考訳): 単位言語モデルを用いたテキストレス低音源音声合成
- Authors: Anuj Diwan, Anirudh Srinivasan, David Harwath, Eunsol Choi
- Abstract要約: 本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
- 参考スコア(独自算出の注目度): 56.1058530241461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing speech-to-speech translation models fall into two camps: textless
models trained with hundreds of hours of parallel speech data or unsupervised
models that leverage text as an intermediate step. Both approaches limit
building speech-to-speech translation models for a wide range of languages, as
they exclude languages that are primarily spoken and language pairs that lack
large-scale parallel speech data. We present a new framework for training
textless low-resource speech-to-speech translation (S2ST) systems that only
need dozens of hours of parallel speech data. We reformulate S2ST as a
unit-to-unit seq2seq translation task, and start by pretraining a model on
large-scale monolingual speech data. Then, we finetune it with a small amount
of parallel speech data ($20-60$ hours). Lastly, we improve model performance
through an unsupervised backtranslation objective. We train and evaluate our
models for English-to-German, German-to-English and Marathi-to-English
translation on three different domains (European Parliament, Common Voice, and
All India Radio) with single-speaker synthesized speech data. Evaluated using
the ASR-BLEU metric, our models achieve reasonable performance on all three
domains, with some being within 1-2 points of our supervised topline.
- Abstract(参考訳): 既存の音声音声翻訳モデルは、数百時間の並列音声データで訓練されたテキストレスモデルと、中間ステップとしてテキストを利用する教師なしモデルである。
どちらのアプローチも、主に話される言語と大規模並列音声データを持たない言語ペアを除外するため、幅広い言語に対する音声合成モデルの構築を制限する。
本稿では,テキストのない低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
s2stを単位-単位seq2seq翻訳タスクとして再構成し、まず、大規模単言語音声データに基づくモデルを事前学習する。
そして、それを少量のパラレル音声データ(20~60ドル時間)で微調整する。
最後に,教師なしのバックトランスレーション目標により,モデル性能を向上させる。
我々は、単一話者合成音声データを用いて、3つの異なるドメイン(欧州議会、共通音声、全インドラジオ)で英語・ドイツ語・ドイツ語・マラティー語翻訳のモデルを訓練し、評価する。
ASR-BLEU測定値を用いて評価し、3つの領域すべてで妥当な性能を達成し、そのうちのいくつかは教師付きトポラインの1-2ポイント以内である。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。