論文の概要: Exploring Stability-Plasticity Trade-offs for Continual Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2508.03259v1
- Date: Tue, 05 Aug 2025 09:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.890891
- Title: Exploring Stability-Plasticity Trade-offs for Continual Named Entity Recognition
- Title(参考訳): 連続的名前付きエンティティ認識のための安定性-塑性トレードオフの探索
- Authors: Duzhen Zhang, Chenxing Li, Jiahua Dong, Qi Liu, Dong Yu,
- Abstract要約: CNER(Continuousal Named Entity Recognition)のためのSPT(Stable-Plasticity Trade-off)手法を提案する。
表現の観点からは,元のKDにプーリング操作を導入し,表現次元を統一することで可塑性のレベルを実現する。
重みの観点からは、古いモデルと新しいモデルの重みを動的にマージし、新しい知識を維持しながら古い知識を強化する。
- 参考スコア(独自算出の注目度): 41.122047611943806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Named Entity Recognition (CNER) is an evolving field that focuses on sequentially updating an existing model to incorporate new entity types. Previous CNER methods primarily utilize Knowledge Distillation (KD) to preserve prior knowledge and overcome catastrophic forgetting, strictly ensuring that the representations of old and new models remain consistent. Consequently, they often impart the model with excessive stability (i.e., retention of old knowledge) but limited plasticity (i.e., acquisition of new knowledge). To address this issue, we propose a Stability-Plasticity Trade-off (SPT) method for CNER that balances these aspects from both representation and weight perspectives. From the representation perspective, we introduce a pooling operation into the original KD, permitting a level of plasticity by consolidating representation dimensions. From the weight perspective, we dynamically merge the weights of old and new models, strengthening old knowledge while maintaining new knowledge. During this fusion, we implement a weight-guided selective mechanism to prioritize significant weights. Moreover, we develop a confidence-based pseudo-labeling approach for the current non-entity type, which predicts entity types using the old model to handle the semantic shift of the non-entity type, a challenge specific to CNER that has largely been ignored by previous methods. Extensive experiments across ten CNER settings on three benchmark datasets demonstrate that our SPT method surpasses previous CNER approaches, highlighting its effectiveness in achieving a suitable stability-plasticity trade-off.
- Abstract(参考訳): 連続的名前付きエンティティ認識(Continuous Named Entity Recognition、CNER)は、新しいエンティティタイプを組み込むために既存のモデルを逐次更新することに焦点を当てた進化する分野である。
従来のCNER法は主に知識蒸留(KD)を用いて事前の知識を保存し、破滅的な忘れを克服し、古いモデルと新しいモデルの表現が一貫していることを厳密に保証した。
その結果、しばしばモデルに過度の安定性(すなわち古い知識の保持)を付与するが、可塑性(すなわち新しい知識の獲得)は制限される。
この問題に対処するため,CNERにおけるSPT法を提案し,これらの側面を表現と重みの両面からバランスをとる。
表現の観点からは,元のKDにプーリング操作を導入し,表現次元を統一することで可塑性のレベルを実現する。
重みの観点からは、古いモデルと新しいモデルの重みを動的にマージし、新しい知識を維持しながら古い知識を強化する。
この融合において、重み付けを優先するための重み付け選択機構を実装した。
さらに,従来の手法でほとんど無視されてきたCNERに特有の課題である,従来のモデルを用いてエンティティ型を予測し,非エンティティ型のセマンティックシフトを処理する,信頼に基づく疑似ラベル手法を開発した。
3つのベンチマークデータセットに対する10のCNER設定にわたる大規模な実験により、SPT法が従来のCNER手法を上回り、安定性と塑性のトレードオフを適切に達成する上での有効性を強調した。
関連論文リスト
- Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Learning Along the Arrow of Time: Hyperbolic Geometry for Backward-Compatible Representation Learning [46.45124762458626]
後方互換性のある表現学習により、更新されたモデルが既存のモデルとシームレスに統合され、ストアドデータの再処理が回避される。
そこで我々は、時間をモデルの信頼と進化を捉えるための自然な軸として扱う、双曲幾何学への視点転換を提案する。
実験は、よりレジリエントで適応可能な機械学習システムを実現するために、互換性を達成するための提案手法の優越性を検証した。
論文 参考訳(メタデータ) (2025-06-06T07:53:40Z) - Continual Learning in Vision-Language Models via Aligned Model Merging [84.47520899851557]
塑性を保ちながら安定性を維持するために,モデルマージに基づく新しい視点を提案する。
マージプロセスの有効性を最大化するために,従来のものと一致した重みの学習を促進するシンプルなメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-30T20:52:21Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - BECAME: BayEsian Continual Learning with Adaptive Model MErging [21.642774366793997]
BECAMEという2段階のフレームワークを導入し、勾配予測と適応的マージの専門知識を相乗化する。
我々のアプローチは、最先端のCLメソッドと既存のマージ戦略より優れています。
論文 参考訳(メタデータ) (2025-04-03T15:07:28Z) - A Retention-Centric Framework for Continual Learning with Guaranteed Model Developmental Safety [75.8161094916476]
現実世界のアプリケーションでは、学習可能なシステムは、しばしば課題や新しいタスクに対処するために反復的なモデル開発を行う。
既存の能力の新規または改善は、必然的に旧モデルの優れた能力を失う可能性がある。
本稿では,データ依存制約を伴う保持中心のフレームワークを提案し,既存の画像分類能力の獲得や改善を目的とした事前学習型CLIPモデルを継続的に開発する方法について検討する。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Weighted Ensemble Models Are Strong Continual Learners [20.62749699589017]
本研究では,タスク列のモデル学習を目標とする連続学習(CL)の問題について検討する。
CLは基本的に、新しいタスクで学べることと、以前に学んだ概念でのパフォーマンスを維持することのバランスをとる行為である。
安定性と塑性のトレードオフに対処するため,従来の課題と現在の課題のモデルパラメータを重み付けする手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Continual Named Entity Recognition without Catastrophic Forgetting [37.316700599440935]
我々は,古いエンティティタイプの知識の保持と新しいもの獲得のトレードオフを巧みに回避する,プールド・フィーチャー蒸留損失を導入する。
非エンタリティ型のための信頼に基づく疑似ラベルを作成する。
バイアス型分布の問題に対処するために,適応的再重み付け型バランス学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:45:30Z) - SRIL: Selective Regularization for Class-Incremental Learning [5.810252620242912]
クラスインクリメンタルラーニングは、この課題を克服するために、可塑性と安定性のバランスをとる統合モデルを作成することを目的としている。
本稿では,従来の知識を維持しつつ,新たな知識を受け入れる選択正規化手法を提案する。
CIFAR-100, ImageNet-Subset, ImageNet-Full を用いて提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-05-09T05:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。