論文の概要: Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling
- arxiv url: http://arxiv.org/abs/2307.07057v1
- Date: Thu, 13 Jul 2023 20:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:30:34.666135
- Title: Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling
- Title(参考訳): asrエンコーダを効果的かつ効率的な音声インテント分類とスロット充填に活用する
- Authors: He Huang, Jagadeesh Balam and Boris Ginsburg
- Abstract要約: 本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。
SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
- 参考スコア(独自算出の注目度): 13.515248068374625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study speech intent classification and slot filling (SICSF) by proposing
to use an encoder pretrained on speech recognition (ASR) to initialize an
end-to-end (E2E) Conformer-Transformer model, which achieves the new
state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and
82.27% SLURP-F1. We compare our model with encoders pretrained on
self-supervised learning (SSL), and show that ASR pretraining is much more
effective than SSL for SICSF. To explore parameter efficiency, we freeze the
encoder and add Adapter modules, and show that parameter efficiency is only
achievable with an ASR-pretrained encoder, while the SSL encoder needs full
finetuning to achieve comparable results. In addition, we provide an in-depth
comparison on end-to-end models versus cascading models (ASR+NLU), and show
that E2E models are better than cascaded models unless an oracle ASR model is
provided. Last but not least, our model is the first E2E model that achieves
the same performance as cascading models with oracle ASR. Code, checkpoints and
configs are available.
- Abstract(参考訳): 本研究では、音声認識(ASR)で事前訓練されたエンコーダを用いて、SLURPデータセット上の新しい最先端結果と82.27%のSLURP-F1を初期化することにより、音声意図分類とスロットフィリング(SICSF)について検討する。
我々は、自己教師付き学習(SSL)で事前訓練されたエンコーダと比較し、SICSFのSSLよりもASR事前学習の方がはるかに効果的であることを示す。
パラメータ効率を探索するためには、エンコーダを凍結し、Adapterモジュールを追加し、パラメータ効率がASR-pretrained encoderでのみ達成可能である一方、SSLエンコーダは同等の結果を得るために完全な微調整が必要であることを示す。
さらに, エンド・ツー・エンドモデルとカスケードモデル (ASR+NLU) を比較し, オラクルASRモデルを提供しない限り, E2Eモデルはカスケードモデルよりも優れていることを示す。
最後に、我々のモデルは、オラクルASRを用いたカスケーディングモデルと同じ性能を達成する最初のE2Eモデルである。
コード、チェックポイント、設定が利用可能だ。
関連論文リスト
- Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer [11.362681035467121]
我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。
提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
論文 参考訳(メタデータ) (2025-01-03T18:19:12Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。
本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。
提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-19T05:01:12Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。