論文の概要: SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2010.02295v3
- Date: Mon, 15 Mar 2021 00:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:41:21.582037
- Title: SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding
- Title(参考訳): SPLAT:音声言語理解のための音声言語共同事前学習
- Authors: Yu-An Chung, Chenguang Zhu, Michael Zeng
- Abstract要約: 音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
- 参考スコア(独自算出の注目度): 61.02342238771685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) requires a model to analyze input
acoustic signal to understand its linguistic content and make predictions. To
boost the models' performance, various pre-training methods have been proposed
to learn rich representations from large-scale unannotated speech and text.
However, the inherent disparities between the two modalities necessitate a
mutual analysis. In this paper, we propose a novel semi-supervised learning
framework, SPLAT, to jointly pre-train the speech and language modules. Besides
conducting a self-supervised masked language modeling task on the two
individual modules using unpaired speech and text, SPLAT aligns representations
from the two modules in a shared latent space using a small amount of paired
speech and text. Thus, during fine-tuning, the speech module alone can produce
representations carrying both acoustic information and contextual semantic
knowledge of an input acoustic signal. Experimental results verify the
effectiveness of our approach on various SLU tasks. For example, SPLAT improves
the previous state-of-the-art performance on the Spoken SQuAD dataset by more
than 10%.
- Abstract(参考訳): 音声言語理解(SLU)は、入力音響信号を解析して言語内容を理解し、予測するモデルを必要とする。
モデルの性能を向上させるために,大規模無注釈音声やテキストからリッチな表現を学習するための事前学習手法が提案されている。
しかし、2つの様相の固有の相違は相互分析を必要とする。
本稿では,音声と言語モジュールを協調的に事前学習するための,半教師付き学習フレームワークSPLATを提案する。
SPLATは、2つのモジュールに対して、ペアなしの音声とテキストを用いて、自己教師付きマスキング言語モデリングタスクを行うとともに、少量のペア付き音声とテキストを使用して、共有潜在空間内の2つのモジュールからの表現を調整する。
したがって、微調整中のみ、音声モジュールは入力された音響信号の音響情報と文脈意味知識の両方を含む表現を生成することができる。
実験により,SLUタスクに対するアプローチの有効性が検証された。
例えば、SPLATは、Spken SQuADデータセットの以前の最先端パフォーマンスを10%以上改善している。
関連論文リスト
- LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。