論文の概要: Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling
- arxiv url: http://arxiv.org/abs/2307.07057v1
- Date: Thu, 13 Jul 2023 20:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:30:34.666135
- Title: Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling
- Title(参考訳): asrエンコーダを効果的かつ効率的な音声インテント分類とスロット充填に活用する
- Authors: He Huang, Jagadeesh Balam and Boris Ginsburg
- Abstract要約: 本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。
SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
- 参考スコア(独自算出の注目度): 13.515248068374625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study speech intent classification and slot filling (SICSF) by proposing
to use an encoder pretrained on speech recognition (ASR) to initialize an
end-to-end (E2E) Conformer-Transformer model, which achieves the new
state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and
82.27% SLURP-F1. We compare our model with encoders pretrained on
self-supervised learning (SSL), and show that ASR pretraining is much more
effective than SSL for SICSF. To explore parameter efficiency, we freeze the
encoder and add Adapter modules, and show that parameter efficiency is only
achievable with an ASR-pretrained encoder, while the SSL encoder needs full
finetuning to achieve comparable results. In addition, we provide an in-depth
comparison on end-to-end models versus cascading models (ASR+NLU), and show
that E2E models are better than cascaded models unless an oracle ASR model is
provided. Last but not least, our model is the first E2E model that achieves
the same performance as cascading models with oracle ASR. Code, checkpoints and
configs are available.
- Abstract(参考訳): 本研究では、音声認識(ASR)で事前訓練されたエンコーダを用いて、SLURPデータセット上の新しい最先端結果と82.27%のSLURP-F1を初期化することにより、音声意図分類とスロットフィリング(SICSF)について検討する。
我々は、自己教師付き学習(SSL)で事前訓練されたエンコーダと比較し、SICSFのSSLよりもASR事前学習の方がはるかに効果的であることを示す。
パラメータ効率を探索するためには、エンコーダを凍結し、Adapterモジュールを追加し、パラメータ効率がASR-pretrained encoderでのみ達成可能である一方、SSLエンコーダは同等の結果を得るために完全な微調整が必要であることを示す。
さらに, エンド・ツー・エンドモデルとカスケードモデル (ASR+NLU) を比較し, オラクルASRモデルを提供しない限り, E2Eモデルはカスケードモデルよりも優れていることを示す。
最後に、我々のモデルは、オラクルASRを用いたカスケーディングモデルと同じ性能を達成する最初のE2Eモデルである。
コード、チェックポイント、設定が利用可能だ。
関連論文リスト
- Compact Speech Translation Models via Discrete Speech Units Pretraining [82.2284421984621]
音声翻訳(ST)において、自己監督学習(SSL)が強い結果を得るのが一般的である。
本稿では、離散音声ユニット(DSU)でより小さなモデルを事前学習することでSSLモデルを活用する。
1) フィルタバンク・トゥ・DSUおよび2) DSU・トゥ・トランスレーションデータ上でエンコーダ・デコーダモデルを事前訓練し, 1) とデコーダを 2) から取り出して新しいモデルを初期化し,これを限定的な音声翻訳データに基づいて微調整する。
論文 参考訳(メタデータ) (2024-02-29T16:36:51Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。