論文の概要: A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems
- arxiv url: http://arxiv.org/abs/2603.18641v1
- Date: Thu, 19 Mar 2026 09:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.050027
- Title: A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems
- Title(参考訳): 連続自然言語処理システムにおける逐次タスク適応におけるカタストロフィック予測の緩和に関する実証的研究
- Authors: Aram Abrahamyan, Sachin Kumar,
- Abstract要約: この研究は、連続的意図分類における破滅的忘れの緩和に関する比較実証的研究を提示する。
我々は、フィードフォワードニューラルネットワーク(ANN)、GRU(Gated Recurrent Unit)、Transformer Encoderの3つのバックボーンアーキテクチャを評価した。
リプレイベース最大参照検索(MIR)、フォーッティングなしの正規化ベース学習(LwF)、ハード・アテンション・トゥ・タスク(HAT)によるパラメータアイソレーション(HAT)などである。
- 参考スコア(独自算出の注目度): 4.417564179511245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural language models deployed in real-world applications must continually adapt to new tasks and domains without forgetting previously acquired knowledge. This work presents a comparative empirical study of catastrophic forgetting mitigation in continual intent classification. Using the CLINC150 dataset, we construct a 10-task label-disjoint scenario and evaluate three backbone architectures: a feed-forward Artificial Neural Network (ANN), a Gated Recurrent Unit (GRU), and a Transformer encoder, under a range of continual learning (CL) strategies. We consider one representative method from each major CL family: replay-based Maximally Interfered Retrieval (MIR), regularization-based Learning without Forgetting (LwF), and parameter-isolation via Hard Attention to Task (HAT), both individually and in all pairwise and triple combinations. Performance is assessed with average accuracy, macro F1, and backward transfer, capturing the stability-plasticity trade-off across the task sequence. Our results show that naive sequential fine-tuning suffers from severe forgetting for all architectures and that no single CL method fully prevents it. Replay emerges as a key ingredient: MIR is the most reliable individual strategy, and combinations that include replay (MIR+HAT, MIR+LwF, MIR+LwF+HAT) consistently achieve high final performance with near-zero or mildly positive backward transfer. The optimal configuration is architecture-dependent. MIR+HAT yields the best result for ANN and Transformer, MIR+LwF+HAT, on the other hand, works the best for GRU, and in several cases CL methods even surpass joint training, indicating a regularization effect. These findings highlight the importance of jointly selecting backbone architecture and CL mechanism when designing continual intent-classification systems.
- Abstract(参考訳): 現実世界のアプリケーションにデプロイされるニューラルネットワークモデルは、以前取得した知識を忘れずに、新しいタスクやドメインに継続的に適応しなければならない。
この研究は、連続的意図分類における破滅的忘れの緩和に関する比較実証的研究を提示する。
CLINC150データセットを用いて、10タスクのラベル分離シナリオを構築し、連続学習(CL)戦略の下でフィードフォワードニューラルネットワーク(ANN)、GRU(Gated Recurrent Unit)、トランスフォーマーエンコーダ(Transformer encoder)の3つのバックボーンアーキテクチャを評価する。
リプレイベース最大干渉検索(MIR)、フォーッティングなしの正規化ベース学習(LwF)、およびHAT(Hard Attention to Task)によるパラメータアイソレーション(パラメータアイソレーション)の2つの主要なCLファミリーの代表的手法について検討する。
性能を平均精度、マクロF1、後方転送で評価し、タスクシーケンス間の安定性と塑性のトレードオフをキャプチャする。
以上の結果から, 逐次微調整は全てのアーキテクチャを著しく忘れることに悩まされ, CL法が完全には防止できないことが示唆された。
MIRは最も信頼性の高い個別戦略であり、リプレイ(MIR+HAT, MIR+LwF, MIR+LwF+HAT)を含む組み合わせは、ほぼゼロに近い、あるいはわずかに正の後方転送で高い最終性能を達成する。
最適な構成はアーキテクチャに依存します。
MIR+HAT は ANN と Transformer に最適な結果を与えるが、MIR+LwF+HAT は GRU に最適である。
これらの知見は,連続的意図分類システムの設計において,バックボーンアーキテクチャとCL機構を共同で選択することの重要性を強調した。
関連論文リスト
- Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - Vision-Language Controlled Deep Unfolding for Joint Medical Image Restoration and Segmentation [34.04441838578788]
AiOMIRSとオールインワン医用画像修復のための原則的枠組みを提案する。
本研究では,大域的セグメンテーションのための長距離依存関係を捕捉し,復元に必要な高周波テクスチャを保存するための周波数認識型Mamba機構を提案する。
AiOMIRSタスクの先駆的な作業として、VL-DUNはマルチモーダルベンチマークにまたがる新しい最先端技術を確立し、PSNRを0.92dB、Dice係数を9.76%改善した。
論文 参考訳(メタデータ) (2026-01-30T15:48:35Z) - LibContinual: A Comprehensive Library towards Realistic Continual Learning [62.34449396069085]
継続的学習(CL)における根本的な課題は破滅的な忘れ込みであり、新しいタスクに適応することで、以前のタスクのパフォーマンスが低下する。
現実的なCLの基礎となるプラットフォームとして設計された,包括的で再現可能なライブラリであるLibContinualを提案する。
論文 参考訳(メタデータ) (2025-12-26T13:59:13Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - Achieving Deep Continual Learning via Evolution [13.284697421728128]
Evolving Continual Learning (ECL)は、さまざまなニューラルネットワークモデルを維持し、進化させるフレームワークである。
ECLは、個々の適応から集団進化へと焦点を移すことで、継続的な学習が可能なAIシステムへの新たな道を示す。
論文 参考訳(メタデータ) (2025-02-10T07:21:44Z) - Continual Learning with Dynamic Sparse Training: Exploring Algorithms
for Effective Model Updates [13.983410740333788]
連続学習(英: Continual Learning, CL)とは、知的なシステムが、可能な限り計算オーバーヘッドの少ないデータストリームから、逐次的に知識を取得し、保持する能力である。
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。
本論文は,CLパラダイムの下で異なるDST成分の効果を検証した最初の実証的研究である。
論文 参考訳(メタデータ) (2023-08-28T18:31:09Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Continual Learning with Gated Incremental Memories for sequential data
processing [14.657656286730736]
従来の知識を忘れずに動的で非定常的な環境で学習する能力、あるいは継続学習(CL)は、適応型ソリューションのスケーラブルで信頼性の高いデプロイを可能にする重要な手段である。
本研究では,従来の知識を忘れることなく,入力分布における概念ドリフトに対処できるCLのためのリカレントニューラルネットワーク(RNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-04-08T16:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。