論文の概要: Densely Distilling Cumulative Knowledge for Continual Learning
- arxiv url: http://arxiv.org/abs/2405.09820v1
- Date: Thu, 16 May 2024 05:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:20:51.606292
- Title: Densely Distilling Cumulative Knowledge for Continual Learning
- Title(参考訳): 連続学習における算術的知識の希薄化
- Authors: Zenglin Shi, Pei Liu, Tong Su, Yunpeng Wu, Kuien Liu, Yu Song, Meng Wang,
- Abstract要約: 多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
- 参考スコア(独自算出の注目度): 14.343655566551213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continual learning, involving sequential training on diverse tasks, often faces catastrophic forgetting. While knowledge distillation-based approaches exhibit notable success in preventing forgetting, we pinpoint a limitation in their ability to distill the cumulative knowledge of all the previous tasks. To remedy this, we propose Dense Knowledge Distillation (DKD). DKD uses a task pool to track the model's capabilities. It partitions the output logits of the model into dense groups, each corresponding to a task in the task pool. It then distills all tasks' knowledge using all groups. However, using all the groups can be computationally expensive, we also suggest random group selection in each optimization step. Moreover, we propose an adaptive weighting scheme, which balances the learning of new classes and the retention of old classes, based on the count and similarity of the classes. Our DKD outperforms recent state-of-the-art baselines across diverse benchmarks and scenarios. Empirical analysis underscores DKD's ability to enhance model stability, promote flatter minima for improved generalization, and remains robust across various memory budgets and task orders. Moreover, it seamlessly integrates with other CL methods to boost performance and proves versatile in offline scenarios like model compression.
- Abstract(参考訳): 多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
知識蒸留に基づくアプローチは, 忘れないようにするための顕著な成功を示す一方で, 過去の課題の累積的知識を蒸留する能力の限界を指摘する。
そこで我々は,Dense Knowledge Distillation (DKD)を提案する。
DKDはタスクプールを使用してモデルの能力を追跡する。
モデルの出力ロジットを、タスクプール内のタスクに対応する高密度なグループに分割する。
その後、全てのタスクの知識を全グループで蒸留する。
しかし、全ての群は計算コストがかかるため、各最適化ステップでランダムな群選択を提案する。
さらに,クラス数と類似度に基づいて,新しいクラスの学習と古いクラスの保持のバランスをとる適応重み付け方式を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
経験的分析は、DKDがモデルの安定性を高め、一般化を改善するためのフラットなミニマを促進し、様々なメモリ予算やタスクオーダに対して堅牢であることを示す。
さらに、他のCLメソッドとシームレスに統合してパフォーマンスを向上し、モデル圧縮のようなオフラインシナリオで汎用性を証明する。
関連論文リスト
- Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation [33.21314371624318]
知識蒸留(KD)は有望なソリューションであり、より大きな教師のLLMからよりコンパクトな学生モデルへの能力の移転を可能にする。
固定予算内でのトレーニングデータを反復的にバランスをとるマルチステージバランス蒸留(BalDistill)フレームワークを導入する。
BalDistillは、様々な長い尾のデータセットにまたがって最先端のパフォーマンスを実現し、蒸留モデルの効率性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-06-19T00:01:14Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Continual Learning From Unlabeled Data Via Deep Clustering [7.704949298975352]
継続的学習は、新しいタスクが到着するたびにモデルをスクラッチから再トレーニングするのではなく、少ない計算とメモリリソースを使って、新しいタスクをインクリメンタルに学習することを目的としている。
クラスタ割り当てから得られた擬似ラベルをモデル更新に用いて,教師なしモードで継続的学習を実現する新たなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T23:46:17Z) - Continual Learning with Node-Importance based Adaptive Group Sparse
Regularization [30.23319528662881]
AGS-CL(Adaptive Group Sparsity based Continual Learning)と呼ばれる新しい正規化に基づく連続学習手法を提案する。
提案手法は,各ノードが重要度に基づいて学習する際の2つの罰則を選択的に利用し,各タスクを学習した後に適応的に更新する。
論文 参考訳(メタデータ) (2020-03-30T18:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。