論文の概要: Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2206.02659v6
- Date: Fri, 22 Dec 2023 20:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:29:31.076220
- Title: Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees
- Title(参考訳): Hessian-based generalization Guaranteesを用いたディープニューラルネットワークのロバスト微調整
- Authors: Haotian Ju, Dongyue Li, Hongyang R. Zhang
- Abstract要約: オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。
本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
- 参考スコア(独自算出の注目度): 20.2407347618552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider fine-tuning a pretrained deep neural network on a target task. We
study the generalization properties of fine-tuning to understand the problem of
overfitting, which has often been observed (e.g., when the target dataset is
small or when the training labels are noisy). Existing generalization measures
for deep networks depend on notions such as distance from the initialization
(i.e., the pretrained network) of the fine-tuned model and noise stability
properties of deep networks. This paper identifies a Hessian-based distance
measure through PAC-Bayesian analysis, which is shown to correlate well with
observed generalization gaps of fine-tuned models. Theoretically, we prove
Hessian distance-based generalization bounds for fine-tuned models. We also
describe an extended study of fine-tuning against label noise, where
overfitting remains a critical problem. We present an algorithm and a
generalization error guarantee for this algorithm under a class conditional
independent noise model. Empirically, we observe that the Hessian-based
distance measure can match the scale of the observed generalization gap of
fine-tuned models in practice. We also test our algorithm on several image
classification tasks with noisy training labels, showing gains over prior
methods and decreases in the Hessian distance measure of the fine-tuned model.
- Abstract(参考訳): 対象タスクにおける事前訓練されたディープニューラルネットワークの微調整を検討する。
我々は、しばしば観測される過剰フィッティングの問題(例えば、ターゲットデータセットが小さい場合や、トレーニングラベルが騒がしい場合など)を理解するために、微調整の一般化特性について検討する。
深層ネットワークに対する既存の一般化手法は、微調整モデルの初期化(即ち事前訓練されたネットワーク)からの距離や、深層ネットワークの雑音安定性などの概念に依存する。
本稿では,PAC-Bayesian解析によるヘッセン系距離測定を同定し,微調整モデルの一般化ギャップとよく相関することを示した。
理論的には、微調整モデルに対するヘッセン距離に基づく一般化境界を証明できる。
また,オーバーフィッティングが重要な問題であるラベルノイズに対する微調整に関する拡張研究についても述べる。
本稿では,このアルゴリズムについて,クラス条件付き独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
経験的に、ヘッセン距離測度は、実際に微調整されたモデルの観測された一般化ギャップのスケールと一致する。
また,ノイズの多いトレーニングラベルを用いた画像分類タスクでもアルゴリズムをテストし,先行手法の利得と微調整モデルのヘッセン距離測定値の低下を示した。
関連論文リスト
- Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks [19.185059111021854]
本稿では,勾配降下,符号降下,座標降下を含む急勾配降下アルゴリズムの一般家系の暗黙バイアスについて検討する。
ネットワークが完全なトレーニング精度に達すると,アルゴリズム依存の幾何マージンが増加し始めることを実証する。
論文 参考訳(メタデータ) (2024-10-29T14:28:49Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Generalization error of spectral algorithms [17.93452027304691]
我々は、$textitspectralアルゴリズムのファミリによるカーネルのトレーニングを、プロファイル$h(lambda)$で指定する。
一般化誤差は2つのデータモデルに対する学習プロファイル$h(lambda)$の関数として導出する。
論文 参考訳(メタデータ) (2024-03-18T11:52:33Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Meta Adversarial Perturbations [66.43754467275967]
メタ逆境摂動(MAP)の存在を示す。
MAPは1段階の上昇勾配更新によって更新された後、自然画像を高い確率で誤分類する。
これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであり、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化される。
論文 参考訳(メタデータ) (2021-11-19T16:01:45Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。