論文の概要: Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems
- arxiv url: http://arxiv.org/abs/2204.05188v1
- Date: Mon, 11 Apr 2022 15:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 19:59:32.953387
- Title: Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems
- Title(参考訳): エンド・ツー・エンド音声対インテントシステムにおける高精度音声対バートアライメントのためのトークンワイズコントラストプリトレーニング
- Authors: Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang J. Kuo,
Brian Kingsbury
- Abstract要約: この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
- 参考スコア(独自算出の注目度): 31.18865184576272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in End-to-End (E2E) Spoken Language Understanding (SLU) have
been primarily due to effective pretraining of speech representations. One such
pretraining paradigm is the distillation of semantic knowledge from
state-of-the-art text-based models like BERT to speech encoder neural networks.
This work is a step towards doing the same in a much more efficient and
fine-grained manner where we align speech embeddings and BERT embeddings on a
token-by-token basis. We introduce a simple yet novel technique that uses a
cross-modal attention mechanism to extract token-level contextual embeddings
from a speech encoder such that these can be directly compared and aligned with
BERT based contextual embeddings. This alignment is performed using a novel
tokenwise contrastive loss. Fine-tuning such a pretrained model to perform
intent recognition using speech directly yields state-of-the-art performance on
two widely used SLU datasets. Our model improves further when fine-tuned with
additional regularization using SpecAugment especially when speech is noisy,
giving an absolute improvement as high as 8% over previous results.
- Abstract(参考訳): エンド・ツー・エンド(E2E)音声言語理解(SLU)の最近の進歩は主に、音声表現の効果的な事前学習によるものである。
そのような事前学習パラダイムの1つは、BERTのような最先端のテキストベースモデルから音声エンコーダニューラルネットワークへの意味知識の蒸留である。
この作業は、音声埋め込みとbert埋め込みをトークン毎のベースでアライメントする、はるかに効率的できめ細かい方法で同じことをする上での一歩です。
本稿では,トークンレベルのコンテキスト埋め込みを音声エンコーダから抽出し,BERTに基づくコンテキスト埋め込みと直接的に比較・整合できる,単純かつ斬新な手法を提案する。
このアライメントは、新しいトークンワイズコントラスト損失を用いて行われる。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
提案手法は, スペックーグメントによる追加正規化により, 音声が雑音である場合にはさらに改善し, これまでの結果よりも8%の精度向上が期待できる。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation [18.329192763760034]
BLSP-KD(Bootstrapping Language-Speech Pretraining)を知識蒸留により導入する。
音声入力とテキスト入力に対するLLMの次点予測分布のばらつきを最小化することで、音声テキストアライメントを最適化する。
また、音声を1対1でテキストトークンに対応するトークンに分割し、きめ細かいアライメントを可能にする。
論文 参考訳(メタデータ) (2024-05-29T12:32:08Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。