論文の概要: Sequence-Level Knowledge Distillation for Class-Incremental End-to-End
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2305.13899v2
- Date: Mon, 31 Jul 2023 19:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:27:11.495409
- Title: Sequence-Level Knowledge Distillation for Class-Incremental End-to-End
Spoken Language Understanding
- Title(参考訳): クラスインクリメンタルエンドツーエンド音声言語理解のためのシーケンスレベル知識蒸留
- Authors: Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti
- Abstract要約: 継続学習環境に適用した音声言語理解の課題に対処する。
本稿では,シーケンス・ツー・シーケンス・トランスモデルの忘れを軽減するための3つの知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 10.187334662184314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn new concepts sequentially is a major weakness for modern
neural networks, which hinders their use in non-stationary environments. Their
propensity to fit the current data distribution to the detriment of the past
acquired knowledge leads to the catastrophic forgetting issue. In this work we
tackle the problem of Spoken Language Understanding applied to a continual
learning setting. We first define a class-incremental scenario for the SLURP
dataset. Then, we propose three knowledge distillation (KD) approaches to
mitigate forgetting for a sequence-to-sequence transformer model: the first KD
method is applied to the encoder output (audio-KD), and the other two work on
the decoder output, either directly on the token-level (tok-KD) or on the
sequence-level (seq-KD) distributions. We show that the seq-KD substantially
improves all the performance metrics, and its combination with the audio-KD
further decreases the average WER and enhances the entity prediction metric.
- Abstract(参考訳): 新しい概念を逐次学習する能力は、現代のニューラルネットワークの大きな弱点であり、非定常環境での使用を妨げる。
過去の取得した知識を損なうために現在のデータ分布に適合する傾向は、破滅的な忘れる問題に繋がる。
本研究では,継続学習環境に適用した音声言語理解の課題に対処する。
まず、SLURPデータセットのクラスインクリメンタルシナリオを定義します。
そこで我々は,第1のKD法をエンコーダ出力(audio-KD)に適用し,トークンレベル(tok-KD)やシーケンスレベル(seq-KD)の分布に直接デコーダ出力を適用する3つの知識蒸留(KD)手法を提案する。
seq-kdは性能指標を実質的に改善し,audio-kdとの組合せにより平均werがさらに減少し,エンティティ予測指標が向上することを示す。
関連論文リスト
- SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - Fixed Random Classifier Rearrangement for Continual Learning [0.5439020425819]
視覚分類のシナリオでは、ニューラルネットワークは新しいタスクを学習した後、必然的に古いタスクの知識を忘れる。
我々はFixed Random Rearrangement (FRCR)という連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T09:43:58Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes [16.96483269023065]
生涯音声の特徴抽出は、新しい音のクラスを漸進的に学習する。
新しいデータにのみモデルを最適化することは、これまで学習されたタスクを壊滅的に忘れてしまう可能性がある。
本稿では,DeCoRと呼ばれる連続的な音声表現学習における新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:25:03Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。
エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。
UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-10T02:43:36Z) - An Investigation of the Combination of Rehearsal and Knowledge
Distillation in Continual Learning for Spoken Language Understanding [9.447108578893639]
本稿では,言語理解のためのリハーサルと知識蒸留の併用を,クラス増分学習シナリオ下で検討する。
ネットワーク内の異なるレベルにおける複数のKD組み合わせについて報告し、特徴レベルと予測レベルのKDの組み合わせが最良の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-15T14:15:22Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Continual Learning with Node-Importance based Adaptive Group Sparse
Regularization [30.23319528662881]
AGS-CL(Adaptive Group Sparsity based Continual Learning)と呼ばれる新しい正規化に基づく連続学習手法を提案する。
提案手法は,各ノードが重要度に基づいて学習する際の2つの罰則を選択的に利用し,各タスクを学習した後に適応的に更新する。
論文 参考訳(メタデータ) (2020-03-30T18:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。