Fugu-MT 論文翻訳(概要): Dynamic Distillation and Gradient Consistency for Robust Long-Tailed Incremental Learning

論文の概要: Dynamic Distillation and Gradient Consistency for Robust Long-Tailed Incremental Learning

arxiv url: http://arxiv.org/abs/2605.03364v1
Date: Tue, 05 May 2026 04:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.772214
Title: Dynamic Distillation and Gradient Consistency for Robust Long-Tailed Incremental Learning
Title（参考訳）: 頑健な長期学習のための動的蒸留とグラディエント一貫性
Authors: Taigo Sakai, Kazuhiro Hotta,
Abstract要約: 本稿では, 急激な変動を抑制し, トレーニングプロセスを安定させるために, 整合性勾配正則化を導入する。第2に, クラス不均衡度と正規化エントロピーの度合いを測定することにより, 蒸留損失の重量を動的に調整する。 CIFAR-100-LT, ImageNetSubset-LT, およびFood101-LTベンチマーク実験の結果, 本手法は最大5.0%の精度向上を実現している。
参考スコア（独自算出の注目度）: 19.30816824251175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The task of Long-tailed Class Incremental Learning (LT-CIL) addresses the sequential learning of new classes from datasets with imbalanced class distributions. This scenario intensifies the fundamental problem of catastrophic forgetting, inherent to continual learning, with the dual challenges of under-learning minority classes and overfitting majority classes. To tackle these combined issues, this paper proposes two main techniques. First, we introduce gradient consistency regularization, which leverages the moving average of gradients to suppress abrupt fluctuations and stabilize the training process. Second, we dynamically adjust the weight of the distillation loss by measuring the degree of class imbalance with normalized entropy. This adaptive weighting establishes an optimal balance between retaining old knowledge and acquiring new information. Experiments on the CIFAR-100-LT, ImageNetSubset-LT, and Food101-LT benchmarks show that our method achieves consistent accuracy improvements of up to 5.0\%. Furthermore, we demonstrate dramatic gains in the challenging 'In-ordered' setting, where tasks progress from majority to minority classes, highlighting our method's robustness in mitigating forgetting under unfavorable learning dynamics. This enhanced performance is achieved without a significant increase in computational overhead, demonstrating the practicality of our framework.
Abstract（参考訳）: Long-tailed Class Incremental Learning (LT-CIL)のタスクは、不均衡なクラス分布を持つデータセットから新しいクラスのシーケンシャルな学習に対処する。このシナリオは、未学習のマイノリティクラスと過適合の多数派クラスという2つの課題によって、破滅的な忘れ方の基本的問題を強化する。そこで本研究では,これらの課題に対処するために2つの主要な手法を提案する。まず、勾配の移動平均を利用して急激な変動を抑制し、トレーニングプロセスを安定化させる勾配整合正則化を導入する。第2に, クラス不均衡度と正規化エントロピーの度合いを測定することにより, 蒸留損失の重量を動的に調整する。この適応重み付けは、古い知識の保持と新しい情報取得の最適なバランスを確立する。 CIFAR-100-LT, ImageNetSubset-LT, およびFood101-LTのベンチマーク実験により, 本手法は最大5.0\%の精度で一貫した精度向上を実現することを示した。さらに,タスクが多数からマイノリティークラスへと進行する,難易度の高い「順序付け」環境での劇的な向上を実演し,不愉快な学習力学の下での忘れを緩和する手法の頑健さを強調した。この性能向上は、計算オーバーヘッドを大幅に増加させることなく達成され、我々のフレームワークの実用性を示す。

関連論文リスト

AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。 AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文参考訳（メタデータ） (2025-10-09T06:38:37Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文参考訳（メタデータ） (2024-08-15T17:50:07Z)
Learning Continually by Spectral Regularization [45.55508032009977]
連続学習アルゴリズムは、ネットワークのトレーニング性を維持しながら、良好な性能を維持することにより、可塑性の損失を軽減する。我々は,初期化時のニューラルネットワークパラメータの特異値が学習の初期段階におけるトレーニング容易性の重要な要因であることから着想を得た,継続学習を改善するための新しい手法を開発した。提案するスペクトル正規化器は,連続的な教師付きおよび強化学習環境において,様々なモデルアーキテクチャの訓練性と性能を維持可能であることを示す実験的検討を行った。
論文参考訳（メタデータ） (2024-06-10T21:34:43Z)
Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [8.438092346233054]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。 CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文参考訳（メタデータ） (2024-02-28T18:08:03Z)
Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文参考訳（メタデータ） (2023-11-25T02:45:56Z)
Beyond Losses Reweighting: Empowering Multi-Task Learning via the Generalization Perspective [61.10883077161432]
マルチタスク学習(MTL)は、共有バックボーンを使用して複数の目的を同時に最適化するために、ディープニューラルネットワークを訓練する。本稿では,重み摂動を利用して勾配ノルムを規制し,一般化を改善する新しいMTLフレームワークを提案する。本手法は,タスク性能とモデル全体のロバスト性の観点から,既存の勾配に基づくMTL技術よりも大幅に優れる。
論文参考訳（メタデータ） (2022-11-24T17:19:30Z)
A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。 GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文参考訳（メタデータ） (2022-07-01T12:54:38Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。