論文の概要: Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2206.02659v6
- Date: Fri, 22 Dec 2023 20:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:29:31.076220
- Title: Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees
- Title(参考訳): Hessian-based generalization Guaranteesを用いたディープニューラルネットワークのロバスト微調整
- Authors: Haotian Ju, Dongyue Li, Hongyang R. Zhang
- Abstract要約: オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。
本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
- 参考スコア(独自算出の注目度): 20.2407347618552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider fine-tuning a pretrained deep neural network on a target task. We
study the generalization properties of fine-tuning to understand the problem of
overfitting, which has often been observed (e.g., when the target dataset is
small or when the training labels are noisy). Existing generalization measures
for deep networks depend on notions such as distance from the initialization
(i.e., the pretrained network) of the fine-tuned model and noise stability
properties of deep networks. This paper identifies a Hessian-based distance
measure through PAC-Bayesian analysis, which is shown to correlate well with
observed generalization gaps of fine-tuned models. Theoretically, we prove
Hessian distance-based generalization bounds for fine-tuned models. We also
describe an extended study of fine-tuning against label noise, where
overfitting remains a critical problem. We present an algorithm and a
generalization error guarantee for this algorithm under a class conditional
independent noise model. Empirically, we observe that the Hessian-based
distance measure can match the scale of the observed generalization gap of
fine-tuned models in practice. We also test our algorithm on several image
classification tasks with noisy training labels, showing gains over prior
methods and decreases in the Hessian distance measure of the fine-tuned model.
- Abstract(参考訳): 対象タスクにおける事前訓練されたディープニューラルネットワークの微調整を検討する。
我々は、しばしば観測される過剰フィッティングの問題(例えば、ターゲットデータセットが小さい場合や、トレーニングラベルが騒がしい場合など)を理解するために、微調整の一般化特性について検討する。
深層ネットワークに対する既存の一般化手法は、微調整モデルの初期化(即ち事前訓練されたネットワーク)からの距離や、深層ネットワークの雑音安定性などの概念に依存する。
本稿では,PAC-Bayesian解析によるヘッセン系距離測定を同定し,微調整モデルの一般化ギャップとよく相関することを示した。
理論的には、微調整モデルに対するヘッセン距離に基づく一般化境界を証明できる。
また,オーバーフィッティングが重要な問題であるラベルノイズに対する微調整に関する拡張研究についても述べる。
本稿では,このアルゴリズムについて,クラス条件付き独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
経験的に、ヘッセン距離測度は、実際に微調整されたモデルの観測された一般化ギャップのスケールと一致する。
また,ノイズの多いトレーニングラベルを用いた画像分類タスクでもアルゴリズムをテストし,先行手法の利得と微調整モデルのヘッセン距離測定値の低下を示した。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [55.52743265122446]
ディープオートエンコーダは視覚領域における異常検出のタスクに使われてきた。
我々は、訓練中に識別情報を使用することが可能な自己指導型学習体制を適用することで、この問題に対処する。
MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Meta Adversarial Perturbations [66.43754467275967]
メタ逆境摂動(MAP)の存在を示す。
MAPは1段階の上昇勾配更新によって更新された後、自然画像を高い確率で誤分類する。
これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであり、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化される。
論文 参考訳(メタデータ) (2021-11-19T16:01:45Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。