論文の概要: Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages
- arxiv url: http://arxiv.org/abs/2205.01086v1
- Date: Mon, 2 May 2022 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 14:22:55.795426
- Title: Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages
- Title(参考訳): Wav2Seq:擬似言語を用いた音声テキストエンコーダ・デコーダモデルの事前学習
- Authors: Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald,
Kilian Q. Weinberger, Yoav Artzi
- Abstract要約: 本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
- 参考スコア(独自算出の注目度): 58.43299730989809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Wav2Seq, the first self-supervised approach to pre-train both
parts of encoder-decoder models for speech data. We induce a pseudo language as
a compact discrete representation, and formulate a self-supervised pseudo
speech recognition task -- transcribing audio inputs into pseudo subword
sequences. This process stands on its own, or can be applied as low-cost
second-stage pre-training. We experiment with automatic speech recognition
(ASR), spoken named entity recognition, and speech-to-text translation. We set
new state-of-the-art results for end-to-end spoken named entity recognition,
and show consistent improvements on 20 language pairs for speech-to-text
translation, even when competing methods use additional text data for training.
Finally, on ASR, our approach enables encoder-decoder methods to benefit from
pre-training for all parts of the network, and shows comparable performance to
highly optimized recent methods.
- Abstract(参考訳): 音声データのためのエンコーダ・デコーダモデルの両方の部分を事前学習する最初の自己教師付き手法であるwav2seqを提案する。
我々は、コンパクトな離散表現として擬似言語を誘導し、音声入力を擬似サブワードシーケンスに変換する自己教師付き擬似音声認識タスクを定式化する。
このプロセスは単独で、または低コストの第2段階事前訓練として適用することができる。
我々は、音声認識(ASR)、名前付きエンティティ認識、音声からテキストへの翻訳を実験した。
提案手法は,学習に付加的なテキストデータを用いた場合であっても,音声からテキストへの変換に20の言語対で一貫した改善が得られた。
最後に、ASRでは、エンコーダ-デコーダ手法がネットワークのすべての部分の事前学習の恩恵を受け、高度に最適化された最近の手法に匹敵する性能を示す。
関連論文リスト
- Understanding Shared Speech-Text Representations [34.45772613231558]
Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
論文 参考訳(メタデータ) (2023-04-27T20:05:36Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。