論文の概要: Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation
- arxiv url: http://arxiv.org/abs/2102.05766v1
- Date: Wed, 10 Feb 2021 22:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 23:26:30.442494
- Title: Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation
- Title(参考訳): マルチモーダルバイリンガル事前学習と音声翻訳のための融合音響・テキスト符号化
- Authors: Renjie Zheng and Junkun Chen and Mingbo Ma and Liang Huang
- Abstract要約: 本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。
3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 21.622039537743607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently text and speech representation learning has successfully improved
many language related tasks. However, all existing methods only learn from one
input modality, while a unified acoustic and text representation is desired by
many speech-related tasks such as speech translation. We propose a Fused
Acoustic and Text Masked Language Model (FAT-MLM) which jointly learns a
unified representation for both acoustic and text in-put. Within this cross
modal representation learning framework, we further present an end-to-end model
for Fused Acoustic and Text Speech Translation (FAT-ST). Experiments on three
translation directions show that our proposed speech translation models
fine-tuned from FAT-MLM substantially improve translation quality (+5.90 BLEU).
- Abstract(参考訳): 近年,テキストおよび音声表現学習は多くの言語関連タスクの改善に成功している。
しかし、既存のすべての方法は1つの入力モダリティからのみ学習し、音声翻訳などの多くの音声関連タスクでは統一された音響およびテキスト表現が望まれます。
本稿では,音声とテキストの合成表現を同時学習する融合音響・テキストマスク言語モデル(fat-mlm)を提案する。
このクロスモーダル表現学習フレームワークでは、Fused Acoustic and Text Speech Translation (FAT-ST) のエンドツーエンドモデルをさらに提示します。
3つの翻訳方向の実験により,fat-mlmから微調整した音声翻訳モデルにより,翻訳品質(+5.90 bleu)が大幅に向上した。
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。