論文の概要: Not All Forgetting Is Equal: Architecture-Dependent Retention Dynamics in Fine-Tuned Image Classifiers
- arxiv url: http://arxiv.org/abs/2604.11508v1
- Date: Mon, 13 Apr 2026 14:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.590974
- Title: Not All Forgetting Is Equal: Architecture-Dependent Retention Dynamics in Fine-Tuned Image Classifiers
- Title(参考訳): 美しい画像分類器におけるアーキテクチャ依存の保持ダイナミクス
- Authors: Miit Daga, Swarna Priya Ramu,
- Abstract要約: ResNet-18 と DeiT-Small の微調整中の各固有点におけるサンプル毎の正当性を追跡する。
第5に、ヘッドウォームアップ後のサンプルの損失は、長期的な崩壊定数を予測する。
アンサンブルにおけるアーキテクチャの多様性は、維持のカバレッジをもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained image classifiers is standard practice, yet which individual samples are forgotten during this process, and whether forgetting patterns are stable or architecture dependent, remains unclear. Understanding these dynamics has direct implications for curriculum design, data pruning, and ensemble construction. We track per-sample correctness at every epoch during fine-tuning of ResNet-18 and DeiT-Small on a retinal OCT dataset (7 classes, 56:1 imbalance) and CUB-200-2011 (200 bird species), fitting Ebbinghaus-style exponential decay curves to each sample's retention trace. Five findings emerge. First, the two architectures forget fundamentally different samples: Jaccard overlap of the top 10 percent most-forgotten is 0.34 on OCTDL and 0.15 on CUB-200. Second, ViT forgetting is more structured (mean $R^2 = 0.74$) than CNN forgetting ($R^2 = 0.52$). Third, per-sample forgetting is stochastic across random seeds (Spearman $ρ\approx 0.01$), challenging the assumption that sample difficulty is an intrinsic property. Fourth, class-level forgetting is consistent and semantically interpretable: visually similar species are forgotten most, distinctive ones least. Fifth, a sample's loss after head warmup predicts its long-term decay constant ($ρ= 0.30$ to $0.50$, $p < 10^{-45}$). These findings suggest that architectural diversity in ensembles provides complementary retention coverage, and that curriculum or pruning methods based on per-sample difficulty may not generalize across runs. A spaced repetition sampler built on these decay constants does not outperform random sampling, indicating that static scheduling cannot exploit unstable per-sample signals.
- Abstract(参考訳): 微調整済み画像分類器は標準的な慣行であるが、このプロセス中に個々のサンプルが忘れられ、パターンを忘れることが安定であるかアーキテクチャに依存しているかは定かではない。
これらのダイナミクスを理解することは、カリキュラム設計、データプルーニング、アンサンブル構築に直接的な意味を持つ。
網膜OCTデータセット(7クラス56:1不均衡)とCUB-200-2011(200種鳥種)でResNet-18とDeiT-Smallを微調整し,エビングハウス型指数崩壊曲線を各試料の保持痕跡に適合させる。
5つの発見がある。
まず、2つのアーキテクチャは基本的に異なるサンプルを忘れている: もっとも忘れられたトップ10%のジャカードのオーバーラップはOCTDLで0.34、CUB-200で0.15である。
第二に、ViTの忘れ物はCNNの忘れ物(R^2 = 0.52$)よりも構造化されている(平均$R^2 = 0.74$)。
第三に、サンプルごとの忘れ物はランダムな種間で確率的であり(Spearman $ρ\approx 0.01$)、サンプルの難易度が本質的な性質であるという仮定に挑戦する。
第4に、クラスレベルの忘れは一貫性があり、意味論的に解釈可能である。
第5に、ヘッドウォームアップ後のサンプルの損失は、長期的な崩壊定数(ρ= 0.30$ to $0.50$, $p < 10^{-45}$)を予測する。
これらの結果から,アンサンブルのアーキテクチャの多様性は相補的保持範囲を提供し,アンサンブルごとの難易度に基づくカリキュラムやプルーニング手法は実行中に一般化しない可能性が示唆された。
これらの減衰定数上に構築された空間的繰り返しサンプリングは、ランダムサンプリングよりも優れておらず、静的スケジューリングが不安定なサンプルごとの信号を利用することができないことを示している。
関連論文リスト
- Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy [0.0]
本研究では,Langevinサンプリングが注目され,単一温度で制御される無トレーニングサンプルが注目されることを示す。
エネルギー勾配はアテンションマップと等しいため、スコアネットワーク、トレーニングループ、学習モデルを必要としない。
論文 参考訳(メタデータ) (2026-03-06T20:50:30Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Information Hidden in Gradients of Regression with Target Noise [2.8911861322232686]
勾配だけでヘッセンが明らかになることを示す。
我々はガウス以下の入力の下で非漸近作用素ノルム保証を提供する。
論文 参考訳(メタデータ) (2026-01-26T14:50:16Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Distributionally Robust Classification on a Data Budget [26.69877485937123]
2.4万の画像サンプル上でのクロスエントロピー損失でトレーニングされた標準ResNet-50は、4億の画像サンプルでトレーニングされたCLIP ResNet-50と同等の堅牢性を達成できることを示す。
これは、限られたデータ予算に対して(ほぼ)最先端の分散ロバスト性を示す最初の結果である。
論文 参考訳(メタデータ) (2023-08-07T15:30:02Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Deep learning for $\psi$-weakly dependent processes [0.0]
私たちは$psi$-weakly依存プロセスを学ぶためにディープニューラルネットワークを実行します。
ディープニューラルネットワーク予測器のクラスにおける経験的リスク最小化アルゴリズムの整合性を確立する。
いくつかのシミュレーション結果が提供され、アメリカの景気後退データにも適用されている。
論文 参考訳(メタデータ) (2023-02-01T09:31:15Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。