論文の概要: Multilingual Speech-to-Speech Translation into Multiple Target Languages
- arxiv url: http://arxiv.org/abs/2307.08655v1
- Date: Mon, 17 Jul 2023 17:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:08:17.699547
- Title: Multilingual Speech-to-Speech Translation into Multiple Target Languages
- Title(参考訳): 複数のターゲット言語への多言語音声合成
- Authors: Hongyu Gong, Ning Dong, Sravya Popuri, Vedanuj Goswami, Ann Lee, Juan
Pino
- Abstract要約: 音声音声翻訳(S2ST)は、異なる言語で話す人々間の音声通信を可能にする。
複数のターゲット言語をサポートする多言語S2STの最初の研究について述べる。
音声対単位とボコーダによる直接S2STの最近の進歩を利用して、これらのキーコンポーネントに多言語機能を持たせる。
- 参考スコア(独自算出の注目度): 23.427886305667833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-to-speech translation (S2ST) enables spoken communication between
people talking in different languages. Despite a few studies on multilingual
S2ST, their focus is the multilinguality on the source side, i.e., the
translation from multiple source languages to one target language. We present
the first work on multilingual S2ST supporting multiple target languages.
Leveraging recent advance in direct S2ST with speech-to-unit and vocoder, we
equip these key components with multilingual capability. Speech-to-masked-unit
(S2MU) is the multilingual extension of S2U, which applies masking to units
which don't belong to the given target language to reduce the language
interference. We also propose multilingual vocoder which is trained with
language embedding and the auxiliary loss of language identification. On
benchmark translation testsets, our proposed multilingual model shows superior
performance than bilingual models in the translation from English into $16$
target languages.
- Abstract(参考訳): 音声音声翻訳(S2ST)は、異なる言語で話す人々間の音声通信を可能にする。
マルチ言語S2STに関するいくつかの研究にもかかわらず、その焦点はソース側の多言語性、すなわち複数のソース言語からひとつのターゲット言語への翻訳である。
複数のターゲット言語をサポートする多言語S2STの最初の研究について述べる。
音声対単位とボコーダによる直接S2STの最近の進歩を利用して、これらのキーコンポーネントに多言語機能を持たせる。
S2MU(Scope-to-masked-unit)は、S2Uの多言語拡張であり、与えられたターゲット言語に属さない単位に対してマスキングを適用し、言語干渉を減らす。
また,言語埋め込みと言語識別の補助的損失を訓練した多言語ボコーダを提案する。
ベンチマーク翻訳テストセットでは,提案する多言語モデルが英語から目標言語への翻訳において,多言語モデルよりも優れた性能を示す。
関連論文リスト
- MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation [45.558316325252335]
マルチタスク音声言語モデル(Multitask Speech Language Model、MSLM)は、マルチタスク設定で訓練されたデコーダのみの音声言語モデルである。
我々のモデルは、話者スタイルを保存した多言語S2STをサポートすることができる。
論文 参考訳(メタデータ) (2024-03-19T03:35:20Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。