論文の概要: SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language
Processing
- arxiv url: http://arxiv.org/abs/2110.07205v1
- Date: Thu, 14 Oct 2021 07:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:24:40.534301
- Title: SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language
Processing
- Title(参考訳): SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing
- Authors: Junyi Ao, Rui Wang, Long Zhou, Shujie Liu, Shuo Ren, Yu Wu, Tom Ko,
Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei
- Abstract要約: 本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。
SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。
テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
- 参考スコア(独自算出の注目度): 77.4527868307914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the success of T5 (Text-To-Text Transfer Transformer) in
pre-training natural language processing models, we propose a unified-modal
SpeechT5 framework that explores the encoder-decoder pre-training for
self-supervised speech/text representation learning. The SpeechT5 framework
consists of a shared encoder-decoder network and six modal-specific
(speech/text) pre/post-nets. After preprocessing the speech/text input through
the pre-nets, the shared encoder-decoder network models the sequence to
sequence transformation, and then the post-nets generate the output in the
speech/text modality based on the decoder output. Particularly, SpeechT5 can
pre-train on a large scale of unlabeled speech and text data to improve the
capability of the speech and textual modeling. To align the textual and speech
information into a unified semantic space, we propose a cross-modal vector
quantization method with random mixing-up to bridge speech and text. Extensive
evaluations on a wide variety of spoken language processing tasks, including
voice conversion, automatic speech recognition, text to speech, and speaker
identification, show the superiority of the proposed SpeechT5 framework.
- Abstract(参考訳): 自然言語処理モデルの事前学習におけるT5(Text-To-Text Transfer Transformer)の成功に触発されて,自己教師型音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。
SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。
プリネットを介して音声/テキスト入力を前処理した後、共有エンコーダ−デコーダネットワークはシーケンスからシーケンス変換をモデル化し、後ネットはデコーダ出力に基づいて音声/テキストモダリティで出力を生成する。
特に、 speecht5 は、大量のラベルのない音声とテキストデータを事前学習することができ、音声とテキストのモデリングの能力を向上させる。
テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
音声変換,音声認識,テキストから音声への認識,話者識別など,多種多様な音声言語処理タスクに対する広範囲な評価は,提案したSpeechT5フレームワークの優位性を示している。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。