論文の概要: Forget Me Not: Fighting Local Overfitting with Knowledge Fusion and Distillation
- arxiv url: http://arxiv.org/abs/2507.08686v1
- Date: Fri, 11 Jul 2025 15:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.406403
- Title: Forget Me Not: Fighting Local Overfitting with Knowledge Fusion and Distillation
- Title(参考訳): Forget Me Not:知識融合と蒸留で局所的なオーバーフィッティングと戦う
- Authors: Uri Stern, Eli Corn, Daphna Weinshall,
- Abstract要約: 検証データ上での深部モデルの忘れ度を計測する新しいスコアを導入する。
従来の過度な過度なオーバーフィッティングがなくても、局所的な過度な過度なオーバーフィッティングが発生することを示す。
次に、単一のモデルのトレーニング履歴を活用して、忘れられた知識を回復し、保持する2段階のアプローチを導入します。
- 参考スコア(独自算出の注目度): 6.7864586321550595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overfitting in deep neural networks occurs less frequently than expected. This is a puzzling observation, as theory predicts that greater model capacity should eventually lead to overfitting -- yet this is rarely seen in practice. But what if overfitting does occur, not globally, but in specific sub-regions of the data space? In this work, we introduce a novel score that measures the forgetting rate of deep models on validation data, capturing what we term local overfitting: a performance degradation confined to certain regions of the input space. We demonstrate that local overfitting can arise even without conventional overfitting, and is closely linked to the double descent phenomenon. Building on these insights, we introduce a two-stage approach that leverages the training history of a single model to recover and retain forgotten knowledge: first, by aggregating checkpoints into an ensemble, and then by distilling it into a single model of the original size, thus enhancing performance without added inference cost. Extensive experiments across multiple datasets, modern architectures, and training regimes validate the effectiveness of our approach. Notably, in the presence of label noise, our method -- Knowledge Fusion followed by Knowledge Distillation -- outperforms both the original model and independently trained ensembles, achieving a rare win-win scenario: reduced training and inference complexity.
- Abstract(参考訳): ディープニューラルネットワークにおけるオーバーフィッティングは、予想よりも頻度が低い。
理論上、より大きなモデルキャパシティが最終的に過度に適合すると予想されるため、これは厄介な観察である。
しかし、もしオーバーフィッティングが世界ではなく、データ空間の特定のサブリージョンで発生したらどうだろうか?
本研究では,入力空間の特定の領域に限定した性能劣化という,局所的な過度化(Local Overfitting)と呼ばれるデータを取得することによって,深層モデルの誤り率を測定する新しいスコアを提案する。
局所的なオーバーフィッティングは,従来のオーバーフィッティングを伴わずとも発生しうることを示し,二重降下現象と密接に関連している。
これらの知見に基づいて,まず,チェックポイントをアンサンブルに集約し,元のサイズの単一モデルに蒸留することにより,推論コストを増大させることなく,性能を向上させるという,単一のモデルのトレーニング履歴を活用した2段階のアプローチを導入する。
複数のデータセット、現代的なアーキテクチャ、トレーニング体制にわたる大規模な実験は、我々のアプローチの有効性を検証する。
特にラベルノイズの存在下では、知識融合(Knowledge Fusion)とそれに続く知識蒸留(Knowledge Distillation)という手法が、オリジナルモデルと独立に訓練されたアンサンブルの両方を上回り、トレーニングと推論の複雑さの低減という、稀な勝利のシナリオを達成する。
関連論文リスト
- A Classical View on Benign Overfitting: The Role of Sample Size [14.36840959836957]
モデルは任意に小さなトレーニングとテストエラーの両方を同時に達成する。
この振舞いはニューラルネットワークの特徴であり、しばしば低い(しかしゼロではない)トレーニングエラーを達成するが、それでもよく一般化される。
論文 参考訳(メタデータ) (2025-05-16T18:37:51Z) - On Local Overfitting and Forgetting in Deep Neural Networks [6.7864586321550595]
本稿では,検証データ上での深部モデルの忘れ率を推定する新しいスコアを提案する。
従来のオーバーフィッティングの有無にかかわらず,局所的なオーバーフィッティングが発生することを示す。
我々は,1つのネットワークのトレーニング履歴にのみ依存して,忘れられた知識を回復することを目的とした,新たなアンサンブル手法を考案した。
論文 参考訳(メタデータ) (2024-12-17T14:53:38Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Towards Fast and Stable Federated Learning: Confronting Heterogeneity
via Knowledge Anchor [18.696420390977863]
本稿では,異なる通信ラウンド間の局所訓練において,各クラスを忘れる程度を系統的に分析する。
これらの知見に触発され,FedKA(Federated Knowledge Anchor)と呼ばれる新しい,簡単なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-05T01:12:56Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - United We Stand: Using Epoch-wise Agreement of Ensembles to Combat
Overfit [7.627299398469962]
オーバーフィッティングを効果的に克服するディープネットワークのための新しいアンサンブル分類器を提案する。
本手法は, 汎用性能の劣化を伴わずに, オーバーフィッティング段階で得られた有用な知識を組み込むことが可能である。
私たちの方法は実装が容易で、どんなトレーニングスキームやアーキテクチャにも統合できます。
論文 参考訳(メタデータ) (2023-10-17T08:51:44Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Certified Robustness in Federated Learning [54.03574895808258]
我々は,フェデレーショントレーニングとパーソナライゼーション,および認定ロバストネスの相互作用について検討した。
単純なフェデレーション平均化技術は, より正確であるだけでなく, より精度の高いロバストモデルの構築にも有効であることがわかった。
論文 参考訳(メタデータ) (2022-06-06T12:10:53Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。