論文の概要: Low-Complexity Inference in Continual Learning via Compressed Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2505.08327v1
- Date: Tue, 13 May 2025 08:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.481815
- Title: Low-Complexity Inference in Continual Learning via Compressed Knowledge Transfer
- Title(参考訳): 圧縮知識伝達による連続学習における低複雑さ推論
- Authors: Zhenrong Liu, Janne M. J. Huttunen, Mikko Honkala,
- Abstract要約: 継続学習(CL)は、以前獲得した知識を忘れずに一連のタスクを学習できるモデルを訓練することを目的としている。
近年、大きな事前学習モデルがCLで広く採用されている。
クラス増分学習に適した2つの効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.079602839359523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) aims to train models that can learn a sequence of tasks without forgetting previously acquired knowledge. A core challenge in CL is balancing stability -- preserving performance on old tasks -- and plasticity -- adapting to new ones. Recently, large pre-trained models have been widely adopted in CL for their ability to support both, offering strong generalization for new tasks and resilience against forgetting. However, their high computational cost at inference time limits their practicality in real-world applications, especially those requiring low latency or energy efficiency. To address this issue, we explore model compression techniques, including pruning and knowledge distillation (KD), and propose two efficient frameworks tailored for class-incremental learning (CIL), a challenging CL setting where task identities are unavailable during inference. The pruning-based framework includes pre- and post-pruning strategies that apply compression at different training stages. The KD-based framework adopts a teacher-student architecture, where a large pre-trained teacher transfers downstream-relevant knowledge to a compact student. Extensive experiments on multiple CIL benchmarks demonstrate that the proposed frameworks achieve a better trade-off between accuracy and inference complexity, consistently outperforming strong baselines. We further analyze the trade-offs between the two frameworks in terms of accuracy and efficiency, offering insights into their use across different scenarios.
- Abstract(参考訳): 継続学習(CL)は、以前獲得した知識を忘れずに一連のタスクを学習できるモデルを訓練することを目的としている。
CLの中核的な課題は、安定性 — 古いタスクのパフォーマンスを維持する -- と、新しいタスクに適応する可塑性 — のバランスです。
近年、大きな事前学習モデルがCLで広く採用され、新しいタスクに対する強力な一般化と、忘れることに対するレジリエンスが実現されている。
しかし、推論時の計算コストが高いため、実世界のアプリケーション、特に低レイテンシやエネルギー効率を必要とするアプリケーションでは実用性が制限される。
この問題に対処するため,本研究では,プレニングと知識蒸留(KD)を含むモデル圧縮手法について検討し,クラス増分学習(CIL)に適した2つの効率的なフレームワークを提案する。
プルーニングベースのフレームワークには、異なるトレーニング段階で圧縮を適用する事前および後プルーニング戦略が含まれている。
KDをベースとしたフレームワークは教師学生のアーキテクチャを採用しており、大規模な事前訓練を受けた教師が下流関連知識をコンパクトな学生に伝達する。
複数のCILベンチマークでの大規模な実験により、提案したフレームワークは精度と推論の複雑さのトレードオフを向上し、一貫して強力なベースラインを上回ります。
さらに、正確性と効率の観点から2つのフレームワーク間のトレードオフを分析し、異なるシナリオにおけるそれらの使用に関する洞察を提供します。
関連論文リスト
- DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。
近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。
我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。
データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文 参考訳(メタデータ) (2025-02-17T06:35:42Z) - TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - Density Distribution-based Learning Framework for Addressing Online
Continual Learning Challenges [4.715630709185073]
オンライン連続学習のための密度分布に基づく学習フレームワークを提案する。
我々のフレームワークは、より優れた平均精度と時間空間効率を実現する。
提案手法は, CL のアプローチにおいて, 有意な差で優れる。
論文 参考訳(メタデータ) (2023-11-22T09:21:28Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。