論文の概要: UWSpeech: Speech to Speech Translation for Unwritten Languages
- arxiv url: http://arxiv.org/abs/2006.07926v2
- Date: Thu, 17 Dec 2020 12:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:23:22.403392
- Title: UWSpeech: Speech to Speech Translation for Unwritten Languages
- Title(参考訳): UWSpeech: 無書き言語のための音声から音声への翻訳
- Authors: Chen Zhang, Xu Tan, Yi Ren, Tao Qin, Kejun Zhang, Tie-Yan Liu
- Abstract要約: UWSpeechと名づけられた非書き言語のための翻訳システムを開発し、対象の非書き言語をコンバータで個別のトークンに変換する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を言語間音声認識(XL)で拡張するXL-VAE法を提案する。
スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは、それぞれ16点と10点のBLEUポイントで直接翻訳とVQ-VAEベースラインを上回っている。
- 参考スコア(独自算出の注目度): 145.37116196042282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing speech to speech translation systems heavily rely on the text of
target language: they usually translate source language either to target text
and then synthesize target speech from text, or directly to target speech with
target text for auxiliary training. However, those methods cannot be applied to
unwritten target languages, which have no written text or phoneme available. In
this paper, we develop a translation system for unwritten languages, named as
UWSpeech, which converts target unwritten speech into discrete tokens with a
converter, and then translates source-language speech into target discrete
tokens with a translator, and finally synthesizes target speech from target
discrete tokens with an inverter. We propose a method called XL-VAE, which
enhances vector quantized variational autoencoder (VQ-VAE) with cross-lingual
(XL) speech recognition, to train the converter and inverter of UWSpeech
jointly. Experiments on Fisher Spanish-English conversation translation dataset
show that UWSpeech outperforms direct translation and VQ-VAE baseline by about
16 and 10 BLEU points respectively, which demonstrate the advantages and
potentials of UWSpeech.
- Abstract(参考訳): 既存の音声から音声への翻訳システムは、ターゲット言語のテキストに大きく依存している:通常、ソース言語を対象のテキストに翻訳し、テキストからターゲットの音声を合成するか、または補助訓練のためにターゲットのテキストでターゲットの音声に直接翻訳する。
しかし、これらの方法は、テキストや音素が書けない、未記述のターゲット言語には適用できない。
本稿では,UWSpeechと名づけられた非記述言語のための翻訳システムを開発する。これは,対象の非記述音声をコンバータで個別のトークンに変換し,次に翻訳器で対象の個別のトークンに翻訳し,最終的にターゲットの個別のトークンからインバータでターゲットの音声を合成する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と言語間音声認識(XL)を併用したXL-VAEという手法を提案する。
スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは直接翻訳とVQ-VAEベースラインをそれぞれ16と10のBLEUポイントで上回り、UWSpeechの利点と可能性を示している。
関連論文リスト
- TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文 参考訳(メタデータ) (2023-09-14T07:35:14Z) - SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。