論文の概要: Direct Text to Speech Translation System using Acoustic Units
- arxiv url: http://arxiv.org/abs/2309.07478v1
- Date: Thu, 14 Sep 2023 07:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:45:47.451532
- Title: Direct Text to Speech Translation System using Acoustic Units
- Title(参考訳): 音響単位を用いた直接音声翻訳システム
- Authors: Victoria Mingote, Pablo Gimeno, Luis Vicente, Sameer Khurana, Antoine
Laurent, Jarod Duret
- Abstract要約: 本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
- 参考スコア(独自算出の注目度): 12.36988942647101
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a direct text to speech translation system using discrete
acoustic units. This framework employs text in different source languages as
input to generate speech in the target language without the need for text
transcriptions in this language. Motivated by the success of acoustic units in
previous works for direct speech to speech translation systems, we use the same
pipeline to extract the acoustic units using a speech encoder combined with a
clustering algorithm. Once units are obtained, an encoder-decoder architecture
is trained to predict them. Then a vocoder generates speech from units. Our
approach for direct text to speech translation was tested on the new CVSS
corpus with two different text mBART models employed as initialisation. The
systems presented report competitive performance for most of the language pairs
evaluated. Besides, results show a remarkable improvement when initialising our
proposed architecture with a model pre-trained with more languages.
- Abstract(参考訳): 本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語の音声を生成する。
従来の音声と音声の直接翻訳システムにおける音響ユニットの成功に動機づけられ,同じパイプラインを用いて,クラスタリングアルゴリズムと組み合わされた音声エンコーダを用いて音響ユニットを抽出する。
ユニットが取得されると、エンコーダ-デコーダアーキテクチャがそれらを予測するために訓練される。
そして、ボコーダが単位から音声を生成する。
CVSSコーパスを初期化に用いた2種類のテキストmBARTモデルを用いて, 直接テキストから音声翻訳へのアプローチを検討した。
システムは、評価されたほとんどの言語ペアの競合性能を報告した。
さらに,提案したアーキテクチャを,より多くの言語で事前学習したモデルで初期化することで,大幅な改善が得られた。
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Direct simultaneous speech to speech translation [29.958601064888132]
本稿では,最初の音声音声合成モデル(Simul-S2ST)を提案する。
モデルは、全音源の音声コンテンツを消費する前に、ターゲット音声の翻訳を生成することができる。
論文 参考訳(メタデータ) (2021-10-15T17:59:15Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。