論文の概要: On Local Overfitting and Forgetting in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2412.12968v1
- Date: Tue, 17 Dec 2024 14:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:47.466504
- Title: On Local Overfitting and Forgetting in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける局所オーバーフィッティングとフォーミングについて
- Authors: Uri Stern, Tomer Yaacoby, Daphna Weinshall,
- Abstract要約: 本稿では,検証データ上での深部モデルの忘れ率を推定する新しいスコアを提案する。
従来のオーバーフィッティングの有無にかかわらず,局所的なオーバーフィッティングが発生することを示す。
我々は,1つのネットワークのトレーニング履歴にのみ依存して,忘れられた知識を回復することを目的とした,新たなアンサンブル手法を考案した。
- 参考スコア(独自算出の注目度): 6.7864586321550595
- License:
- Abstract: The infrequent occurrence of overfitting in deep neural networks is perplexing: contrary to theoretical expectations, increasing model size often enhances performance in practice. But what if overfitting does occur, though restricted to specific sub-regions of the data space? In this work, we propose a novel score that captures the forgetting rate of deep models on validation data. We posit that this score quantifies local overfitting: a decline in performance confined to certain regions of the data space. We then show empirically that local overfitting occurs regardless of the presence of traditional overfitting. Using the framework of deep over-parametrized linear models, we offer a certain theoretical characterization of forgotten knowledge, and show that it correlates with knowledge forgotten by real deep models. Finally, we devise a new ensemble method that aims to recover forgotten knowledge, relying solely on the training history of a single network. When combined with self-distillation, this method enhances the performance of any trained model without adding inference costs. Extensive empirical evaluations demonstrate the efficacy of our method across multiple datasets, contemporary neural network architectures, and training protocols.
- Abstract(参考訳): 深層ニューラルネットワークにおける過剰適合の頻繁な発生は、理論的な期待に反して、モデルサイズの増加は、実際にの性能を高めることが多い。
しかし、もしオーバーフィッティングが発生しても、データ空間の特定のサブリージョンに制限されるとしたらどうだろう?
本研究では,検証データ上での深部モデルの忘れ率を推定する新しいスコアを提案する。
このスコアは局所的なオーバーフィッティング(データ空間の特定の領域に限られるパフォーマンスの低下)を定量化すると仮定する。
次に,従来のオーバーフィットの有無にかかわらず,局所的なオーバーフィットが発生することを実証的に示す。
深い過度にパラメータ化された線形モデルの枠組みを用いて、忘れられた知識の特定の理論的特徴を提供し、それが真の深いモデルによって忘れられた知識と相関していることを示す。
最後に,1つのネットワークのトレーニング履歴にのみ依存して,忘れられた知識を回復することを目的とした,新たなアンサンブル手法を提案する。
自己蒸留と組み合わせることで、推論コストを加算することなく、訓練されたモデルの性能を向上させることができる。
大規模な経験的評価は、複数のデータセット、現代のニューラルネットワークアーキテクチャ、トレーニングプロトコルにまたがって、我々の手法の有効性を示す。
関連論文リスト
- Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Example Forgetting: A Novel Approach to Explain and Interpret Deep
Neural Networks in Seismic Interpretation [12.653673008542155]
ディープニューラルネットワークは、共通の解釈パイプラインにとって魅力的なコンポーネントです。
深層ニューラルネットワークは、モデルが訓練されていない部分に露出した場合、意味的に不正確な出力を生成するという特性のため、しばしば不信に満ちている。
本稿では,意味的誤動作予測をニューラルネットワーク表現多様体内の優雅な位置と効果的に関連付ける手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T19:19:22Z) - Explaining Deep Models through Forgettable Learning Dynamics [12.653673008542155]
学習中の学習行動の可視化には,その後の学習の時期において,サンプルがどれだけ多く学習され,忘れられるかを追跡する。
この現象に触発されて,この情報を積極的に利用してモデル内のデータ表現を変化させる新たなセグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2023-01-10T21:59:20Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - DeepBayes -- an estimator for parameter estimation in stochastic
nonlinear dynamical models [11.917949887615567]
本研究では,DeepBayes推定器を提案する。
ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。
提案手法の異なる実例モデルへの適用性を実証し, 最先端手法との詳細な比較を行う。
論文 参考訳(メタデータ) (2022-05-04T18:12:17Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。