Fugu-MT 論文翻訳(概要): Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding

論文の概要: Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding

arxiv url: http://arxiv.org/abs/2305.13899v2
Date: Mon, 31 Jul 2023 19:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 17:27:11.495409
Title: Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding
Title（参考訳）: クラスインクリメンタルエンドツーエンド音声言語理解のためのシーケンスレベル知識蒸留
Authors: Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti
Abstract要約: 継続学習環境に適用した音声言語理解の課題に対処する。本稿では,シーケンス・ツー・シーケンス・トランスモデルの忘れを軽減するための3つの知識蒸留手法を提案する。
参考スコア（独自算出の注目度）: 10.187334662184314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to learn new concepts sequentially is a major weakness for modern neural networks, which hinders their use in non-stationary environments. Their propensity to fit the current data distribution to the detriment of the past acquired knowledge leads to the catastrophic forgetting issue. In this work we tackle the problem of Spoken Language Understanding applied to a continual learning setting. We first define a class-incremental scenario for the SLURP dataset. Then, we propose three knowledge distillation (KD) approaches to mitigate forgetting for a sequence-to-sequence transformer model: the first KD method is applied to the encoder output (audio-KD), and the other two work on the decoder output, either directly on the token-level (tok-KD) or on the sequence-level (seq-KD) distributions. We show that the seq-KD substantially improves all the performance metrics, and its combination with the audio-KD further decreases the average WER and enhances the entity prediction metric.
Abstract（参考訳）: 新しい概念を逐次学習する能力は、現代のニューラルネットワークの大きな弱点であり、非定常環境での使用を妨げる。過去の取得した知識を損なうために現在のデータ分布に適合する傾向は、破滅的な忘れる問題に繋がる。本研究では,継続学習環境に適用した音声言語理解の課題に対処する。まず、SLURPデータセットのクラスインクリメンタルシナリオを定義します。そこで我々は,第1のKD法をエンコーダ出力(audio-KD)に適用し,トークンレベル(tok-KD)やシーケンスレベル(seq-KD)の分布に直接デコーダ出力を適用する3つの知識蒸留(KD)手法を提案する。 seq-kdは性能指標を実質的に改善し,audio-kdとの組合せにより平均werがさらに減少し,エンティティ予測指標が向上することを示す。

関連論文リスト

EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer [3.917354933232572]
DeepKDは、デュアルレベルのデカップリングと適応的なデヌーシングを統合した、新しいトレーニングフレームワークである。トレーニングが進むにつれて、Kを小さな初期値から徐々に増加させ、より多くの非ターゲットクラスを組み込む動的トップkマスク(DTM)機構を導入する。 CIFAR-100、ImageNet、MS-COCOの大規模な実験はDeepKDの有効性を示している。
論文参考訳（メタデータ） (2025-05-21T05:38:57Z)
A Good Start Matters: Enhancing Continual Learning with Data-Driven Weight Initialization [15.8696301825572]
連続訓練されたディープニューラルネットワーク(DNN)は、事前の知識を維持し、活用しながら、新しい概念を迅速に学習する必要がある。新しく遭遇したカテゴリのウェイトは通常ランダムに行われ、初等訓練の損失(スパイク)と不安定性に繋がる。ニューラル・コラプス(NC)に触発され,CLにおける学習効率向上のための重み付け初期化戦略を提案する。
論文参考訳（メタデータ） (2025-03-09T01:44:22Z)
SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文参考訳（メタデータ） (2024-08-15T17:50:07Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
An Effective Mixture-Of-Experts Approach For Code-Switching Speech Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文参考訳（メタデータ） (2024-02-27T04:08:59Z)
Fixed Random Classifier Rearrangement for Continual Learning [0.5439020425819]
視覚分類のシナリオでは、ニューラルネットワークは新しいタスクを学習した後、必然的に古いタスクの知識を忘れる。我々はFixed Random Rearrangement (FRCR)という連続学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-23T09:43:58Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes [16.96483269023065]
生涯音声の特徴抽出は、新しい音のクラスを漸進的に学習する。新しいデータにのみモデルを最適化することは、これまで学習されたタスクを壊滅的に忘れてしまう可能性がある。本稿では,DeCoRと呼ばれる連続的な音声表現学習における新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-29T02:25:03Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。 UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文参考訳（メタデータ） (2023-03-10T02:43:36Z)
An Investigation of the Combination of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language Understanding [9.447108578893639]
本稿では,言語理解のためのリハーサルと知識蒸留の併用を,クラス増分学習シナリオ下で検討する。ネットワーク内の異なるレベルにおける複数のKD組み合わせについて報告し、特徴レベルと予測レベルのKDの組み合わせが最良の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-11-15T14:15:22Z)
EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。 EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-24T08:48:16Z)
Continual Learning with Node-Importance based Adaptive Group Sparse Regularization [30.23319528662881]
AGS-CL(Adaptive Group Sparsity based Continual Learning)と呼ばれる新しい正規化に基づく連続学習手法を提案する。提案手法は,各ノードが重要度に基づいて学習する際の2つの罰則を選択的に利用し,各タスクを学習した後に適応的に更新する。
論文参考訳（メタデータ） (2020-03-30T18:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。