論文の概要: SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training
- arxiv url: http://arxiv.org/abs/2210.03730v1
- Date: Fri, 7 Oct 2022 17:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:25:52.223016
- Title: SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training
- Title(参考訳): SpeechUT:エンコーダデコーダを用いた音声テキスト事前学習のためのHidden-Unitによる音声とテキストのブリッジ
- Authors: Ziqiang Zhang, Long Zhou, Junyi Ao, Shujie Liu, Lirong Dai, Jinyu Li,
Furu Wei
- Abstract要約: 本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
- 参考スコア(独自算出の注目度): 106.34112664893622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of single-modal pre-training has prompted researchers
to pay more attention to cross-modal pre-training methods. In this paper, we
propose a unified-modal speech-unit-text pre-training model, SpeechUT, to
connect the representations of a speech encoder and a text decoder with a
shared unit encoder. Leveraging hidden-unit as an interface to align speech and
text, we can decompose the speech-to-text model into a speech-to-unit model and
a unit-to-text model, which can be jointly pre-trained with unpaired speech and
text data respectively. Our proposed SpeechUT is fine-tuned and evaluated on
automatic speech recognition (ASR) and speech translation (ST) tasks.
Experimental results show that SpeechUT gets substantial improvements over
strong baselines, and achieves state-of-the-art performance on both the
LibriSpeech ASR and MuST-C ST tasks. To better understand the proposed
SpeechUT, detailed analyses are conducted. The code and pre-trained models are
available at https://aka.ms/SpeechUT.
- Abstract(参考訳): シングルモーダルプリトレーニングの急速な発展により、研究者はクロスモーダルプリトレーニング法にもっと注意を払うようになった。
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダと接続するための統一モーダル音声単位テキスト事前学習モデルである speechut を提案する。
音声とテキストをアライメントするインタフェースとして隠蔽単位を利用すると、音声からテキストへのモデルを音声から単位へのモデルと単位からテキストへのモデルに分解することができる。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
実験結果から,SpeechUTは強いベースラインよりも大幅に改善され,LibriSpeech ASR と MuST-C ST の両タスクで最先端のパフォーマンスが達成された。
提案するSpeechUTをよりよく理解するために,詳細な分析を行った。
コードと事前訓練されたモデルはhttps://aka.ms/SpeechUT.comで入手できる。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。