論文の概要: A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models
for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2211.05869v1
- Date: Thu, 10 Nov 2022 20:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:42:26.231183
- Title: A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models
for Spoken Language Understanding
- Title(参考訳): 音声言語理解のための事前学習型SSL, ASR, LM, SLUモデルの統合に関する研究
- Authors: Yifan Peng, Siddhant Arora, Yosuke Higuchi, Yushi Ueda, Sujay Kumar,
Karthik Ganesan, Siddharth Dalmia, Xuankai Chang, Shinji Watanabe
- Abstract要約: 4種類の事前学習モデルとそれらの組み合わせを音声言語理解(SLU)に適用する。
我々は、大量の未ペアデータに基づいて事前訓練された自己教師付き音声・言語モデル(LM)を利用して、強い音声・テキスト表現を抽出する。
また、より大きな外部音声認識(ASR)やSLUコーパスで事前訓練した教師付きモデルについても検討する。
- 参考スコア(独自算出の注目度): 42.345266746904514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting sufficient labeled data for spoken language understanding (SLU) is
expensive and time-consuming. Recent studies achieved promising results by
using pre-trained models in low-resource scenarios. Inspired by this, we aim to
ask: which (if any) pre-training strategies can improve performance across SLU
benchmarks? To answer this question, we employ four types of pre-trained models
and their combinations for SLU. We leverage self-supervised speech and language
models (LM) pre-trained on large quantities of unpaired data to extract strong
speech and text representations. We also explore using supervised models
pre-trained on larger external automatic speech recognition (ASR) or SLU
corpora. We conduct extensive experiments on the SLU Evaluation (SLUE)
benchmark and observe self-supervised pre-trained models to be more powerful,
with pre-trained LM and speech models being most beneficial for the Sentiment
Analysis and Named Entity Recognition task, respectively.
- Abstract(参考訳): 音声言語理解(SLU)のための十分なラベル付きデータ収集は高価で時間を要する。
最近の研究は、低リソースシナリオで事前訓練されたモデルを使用することで、有望な結果を得た。
どの(もし)事前トレーニング戦略がSLUベンチマークでパフォーマンスを改善することができるのか?
そこで本研究では,4種類の事前学習モデルとそれらの組み合わせをSLUに適用する。
我々は,大量の非ペアデータに事前学習した自己教師付き音声・言語モデル(lm)を用いて,強固な音声・テキスト表現を抽出する。
また、より大きな外部音声認識(ASR)やSLUコーパスで事前訓練した教師付きモデルについても検討する。
我々は、SLU評価(SLUE)のベンチマークで広範囲にわたる実験を行い、自己教師付き事前学習モデルをより強力に観察し、事前訓練されたLMと音声モデルは、それぞれ知覚分析と名前付きエンティティ認識タスクに最も有用である。
関連論文リスト
- VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-31T11:48:24Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。