Fugu-MT 論文翻訳(概要): Textless Speech-to-Speech Translation With Limited Parallel Data

論文の概要: Textless Speech-to-Speech Translation With Limited Parallel Data

arxiv url: http://arxiv.org/abs/2305.15405v3
Date: Wed, 06 Nov 2024 21:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.905177
Title: Textless Speech-to-Speech Translation With Limited Parallel Data
Title（参考訳）: 限られた並列データを用いたテキスト音声音声合成
Authors: Anuj Diwan, Anirudh Srinivasan, David Harwath, Eunsol Choi,
Abstract要約: PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。 3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
参考スコア（独自算出の注目度）: 51.3588490789084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing speech-to-speech translation (S2ST) models fall into two camps: they either leverage text as an intermediate step or require hundreds of hours of parallel speech data. Both approaches are incompatible with textless languages or language pairs with limited parallel data. We present PFB, a framework for training textless S2ST models that require just dozens of hours of parallel speech data. We first pretrain a model on large-scale monolingual speech data, finetune it with a small amount of parallel speech data (20-60 hours), and lastly train with an unsupervised backtranslation objective. We train and evaluate our models for English-to-German, German-to-English and Marathi-to-English translation on three different domains (European Parliament, Common Voice, and All India Radio) with single-speaker synthesized speech. Evaluated using the ASR-BLEU metric, our models achieve reasonable performance on all three domains, with some being within 1-2 points of our higher-resourced topline.
Abstract（参考訳）: 既存の音声音声翻訳(S2ST)モデルは、中間ステップとしてテキストを利用するか、数百時間の並列音声データを必要とする。どちらのアプローチも、テキストレス言語や、限られた並列データを持つ言語ペアとは互換性がない。 PFBはテキストレスのS2STモデルを訓練するためのフレームワークで、数十時間の並列音声データしか必要としない。まず, 大規模単言語音声データの事前学習を行い, 少量のパラレル音声データ(20～60時間)で微調整し, 教師なしの逆翻訳目的で訓練する。我々は、単一話者合成音声を用いて、ドイツ語、ドイツ語、マラタイ語を3つの異なる領域(欧州議会、共通音声、全インドラジオ)で翻訳するためのモデルを訓練し、評価する。 ASR-BLEU測定値を用いて評価し、高出力トポラインの1-2ポイント以内の3つの領域で妥当な性能を達成する。

関連論文リスト

Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文参考訳（メタデータ） (2022-10-31T02:55:51Z)
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文参考訳（メタデータ） (2022-10-27T14:09:48Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。