Fugu-MT 論文翻訳(概要): Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

論文の概要: Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

arxiv url: http://arxiv.org/abs/2307.07057v1
Date: Thu, 13 Jul 2023 20:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 15:30:34.666135
Title: Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
Title（参考訳）: asrエンコーダを効果的かつ効率的な音声インテント分類とスロット充填に活用する
Authors: He Huang, Jagadeesh Balam and Boris Ginsburg
Abstract要約: 本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。 SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
参考スコア（独自算出の注目度）: 13.515248068374625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.
Abstract（参考訳）: 本研究では、音声認識(ASR)で事前訓練されたエンコーダを用いて、SLURPデータセット上の新しい最先端結果と82.27%のSLURP-F1を初期化することにより、音声意図分類とスロットフィリング(SICSF)について検討する。我々は、自己教師付き学習(SSL)で事前訓練されたエンコーダと比較し、SICSFのSSLよりもASR事前学習の方がはるかに効果的であることを示す。パラメータ効率を探索するためには、エンコーダを凍結し、Adapterモジュールを追加し、パラメータ効率がASR-pretrained encoderでのみ達成可能である一方、SSLエンコーダは同等の結果を得るために完全な微調整が必要であることを示す。さらに, エンド・ツー・エンドモデルとカスケードモデル (ASR+NLU) を比較し, オラクルASRモデルを提供しない限り, E2Eモデルはカスケードモデルよりも優れていることを示す。最後に、我々のモデルは、オラクルASRを用いたカスケーディングモデルと同じ性能を達成する最初のE2Eモデルである。コード、チェックポイント、設定が利用可能だ。

関連論文リスト

Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文参考訳（メタデータ） (2025-04-08T17:13:41Z)
Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。 URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文参考訳（メタデータ） (2025-03-20T16:44:43Z)
Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer [11.362681035467121]
我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
論文参考訳（メタデータ） (2025-01-03T18:19:12Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2024-04-19T05:01:12Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。 E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文参考訳（メタデータ） (2023-06-07T08:23:58Z)
A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。 LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文参考訳（メタデータ） (2023-05-18T09:50:47Z)
LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文参考訳（メタデータ） (2022-10-28T09:53:05Z)
Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-06-09T12:45:29Z)
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。 E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文参考訳（メタデータ） (2022-05-30T08:25:36Z)
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。 LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文参考訳（メタデータ） (2021-12-05T07:30:17Z)
Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文参考訳（メタデータ） (2021-03-17T21:02:36Z)
Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文参考訳（メタデータ） (2020-12-21T21:25:11Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。