論文の概要: Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation
- arxiv url: http://arxiv.org/abs/2211.00115v1
- Date: Mon, 31 Oct 2022 19:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:52:00.269477
- Title: Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation
- Title(参考訳): 離散音声表現を用いたテキスト直接音声合成
- Authors: Xinjian Li, Ye Jia, Chung-Cheng Chiu
- Abstract要約: 本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
- 参考スコア(独自算出の注目度): 27.182170555234226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on speech-to-speech translation (S2ST) has progressed rapidly in
recent years. Many end-to-end systems have been proposed and show advantages
over conventional cascade systems, which are often composed of recognition,
translation and synthesis sub-systems. However, most of the end-to-end systems
still rely on intermediate textual supervision during training, which makes it
infeasible to work for languages without written forms. In this work, we
propose a novel model, Textless Translatotron, which is based on Translatotron
2, for training an end-to-end direct S2ST model without any textual
supervision. Instead of jointly training with an auxiliary task predicting
target phonemes as in Translatotron 2, the proposed model uses an auxiliary
task predicting discrete speech representations which are obtained from learned
or random speech quantizers. When a speech encoder pre-trained with
unsupervised speech data is used for both models, the proposed model obtains
translation quality nearly on-par with Translatotron 2 on the multilingual
CVSS-C corpus as well as the bilingual Fisher Spanish-English corpus. On the
latter, it outperforms the prior state-of-the-art textless model by +18.5 BLEU.
- Abstract(参考訳): 近年,音声音声翻訳(S2ST)の研究が急速に進んでいる。
多くのエンドツーエンドシステムが提案され、認識、翻訳、合成のサブシステムで構成される従来のカスケードシステムよりも優れている。
しかしながら、エンド・ツー・エンドのシステムの多くは、トレーニング中の中間的なテキスト管理に依存しており、書式のない言語で作業することは不可能である。
本研究では,Translatotron 2をベースとした新しいモデルであるTextless Translatotronを提案する。
Translatotron 2のような目標音素を予測する補助タスクと共同で訓練する代わりに、学習された音声量化器やランダムな音声量化器から得られる離散音声表現を予測する補助タスクを使用する。
教師なし音声データで事前訓練された音声エンコーダを両モデルに使用した場合,提案モデルは多言語CVSS-CコーパスとバイリンガルFisher Spanish- Englishコーパスのトランスラトトロン2とほぼ同等の翻訳品質が得られる。
後者では、以前の最先端のテキストレスモデルを+18.5 BLEUで上回っている。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。