論文の概要: Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation
- arxiv url: http://arxiv.org/abs/2102.05766v1
- Date: Wed, 10 Feb 2021 22:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 23:26:30.442494
- Title: Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation
- Title(参考訳): マルチモーダルバイリンガル事前学習と音声翻訳のための融合音響・テキスト符号化
- Authors: Renjie Zheng and Junkun Chen and Mingbo Ma and Liang Huang
- Abstract要約: 本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。
3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 21.622039537743607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently text and speech representation learning has successfully improved
many language related tasks. However, all existing methods only learn from one
input modality, while a unified acoustic and text representation is desired by
many speech-related tasks such as speech translation. We propose a Fused
Acoustic and Text Masked Language Model (FAT-MLM) which jointly learns a
unified representation for both acoustic and text in-put. Within this cross
modal representation learning framework, we further present an end-to-end model
for Fused Acoustic and Text Speech Translation (FAT-ST). Experiments on three
translation directions show that our proposed speech translation models
fine-tuned from FAT-MLM substantially improve translation quality (+5.90 BLEU).
- Abstract(参考訳): 近年,テキストおよび音声表現学習は多くの言語関連タスクの改善に成功している。
しかし、既存のすべての方法は1つの入力モダリティからのみ学習し、音声翻訳などの多くの音声関連タスクでは統一された音響およびテキスト表現が望まれます。
本稿では,音声とテキストの合成表現を同時学習する融合音響・テキストマスク言語モデル(fat-mlm)を提案する。
このクロスモーダル表現学習フレームワークでは、Fused Acoustic and Text Speech Translation (FAT-ST) のエンドツーエンドモデルをさらに提示します。
3つの翻訳方向の実験により,fat-mlmから微調整した音声翻訳モデルにより,翻訳品質(+5.90 bleu)が大幅に向上した。
関連論文リスト
- VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-05-24T17:23:35Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。