論文の概要: Bridging Speech and Textual Pre-trained Models with Unsupervised ASR
- arxiv url: http://arxiv.org/abs/2211.03025v1
- Date: Sun, 6 Nov 2022 04:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:13:37.101008
- Title: Bridging Speech and Textual Pre-trained Models with Unsupervised ASR
- Title(参考訳): 教師なしASRを用いたブリッジ音声とテキスト事前学習モデル
- Authors: Jiatong Shi, Chan-Jan Hsu, Holam Chung, Dongji Gao, Paola Garcia,
Shinji Watanabe, Ann Lee, Hung-yi Lee
- Abstract要約: この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
- 参考スコア(独自算出の注目度): 70.61449720963235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language understanding (SLU) is a task aiming to extract high-level
semantics from spoken utterances. Previous works have investigated the use of
speech self-supervised models and textual pre-trained models, which have shown
reasonable improvements to various SLU tasks. However, because of the
mismatched modalities between speech signals and text tokens, previous methods
usually need complex designs of the frameworks. This work proposes a simple yet
efficient unsupervised paradigm that connects speech and textual pre-trained
models, resulting in an unsupervised speech-to-semantic pre-trained model for
various tasks in SLU. To be specific, we propose to use unsupervised automatic
speech recognition (ASR) as a connector that bridges different modalities used
in speech and textual pre-trained models. Our experiments show that
unsupervised ASR itself can improve the representations from speech
self-supervised models. More importantly, it is shown as an efficient connector
between speech and textual pre-trained models, improving the performances of
five different SLU tasks. Notably, on spoken question answering, we reach the
state-of-the-art result over the challenging NMSQA benchmark.
- Abstract(参考訳): 音声言語理解(slu)は、話し言葉からハイレベルな意味論を抽出することを目的としたタスクである。
これまでの研究で、音声自己教師モデルとテキスト事前学習モデルの使用が検討され、様々なsluタスクに合理的な改善が見られた。
しかし、音声信号とテキストトークンの不一致のために、従来の方法はフレームワークの複雑な設計を必要とする。
本研究は,音声とテキストによる事前学習モデルを結合した,シンプルで効率的な非教師付きパラダイムを提案する。
具体的には、教師なし自動音声認識(ASR)を、音声とテキストの事前学習モデルで使用される様々なモダリティをブリッジするコネクタとして用いることを提案する。
実験の結果,教師なしASR自体が自己教師付き音声モデルから表現を改善することがわかった。
さらに、音声とテキストによる事前学習モデルの効率的な接続として示され、5つのSLUタスクのパフォーマンスが向上する。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SLM: Bridge the thin gap between speech and text foundation models [45.319071954143325]
音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
論文 参考訳(メタデータ) (2023-09-30T02:27:45Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - WaBERT: A Low-resource End-to-end Model for Spoken Language
Understanding and Speech-to-BERT Alignment [2.7505260301752763]
本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルを提案する。
WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。
論文 参考訳(メタデータ) (2022-04-22T02:14:40Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。