論文の概要: SADT: Combining Sharpness-Aware Minimization with Self-Distillation for
Improved Model Generalization
- arxiv url: http://arxiv.org/abs/2211.00310v1
- Date: Tue, 1 Nov 2022 07:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:18:46.374729
- Title: SADT: Combining Sharpness-Aware Minimization with Self-Distillation for
Improved Model Generalization
- Title(参考訳): SADT: シャープネスを考慮した最小化と自己蒸留を組み合わせたモデル一般化
- Authors: Masud An-Nur Islam Fahim, Jani Boutellier
- Abstract要約: ディープニューラルネットワークトレーニング時間とモデル一般化性を改善する方法は、さまざまなデータ拡張、正規化、最適化アプローチから構成される。
この研究は、シャープネス・アウェア、最小化、自己蒸留というモデル一般化性に対処する最近の2つのトレーニング戦略を共同で検討する。
この研究の実験的セクションは、SADTが、モデル収束時間、テスト時間性能、モデル一般化可能性において、これまで公表されたトレーニング戦略を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.365720395124051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for improving deep neural network training times and model
generalizability consist of various data augmentation, regularization, and
optimization approaches, which tend to be sensitive to hyperparameter settings
and make reproducibility more challenging. This work jointly considers two
recent training strategies that address model generalizability: sharpness-aware
minimization, and self-distillation, and proposes the novel training strategy
of Sharpness-Aware Distilled Teachers (SADT). The experimental section of this
work shows that SADT consistently outperforms previously published training
strategies in model convergence time, test-time performance, and model
generalizability over various neural architectures, datasets, and
hyperparameter settings.
- Abstract(参考訳): ディープニューラルネットワークのトレーニング時間とモデルの一般化性を改善するための方法は、ハイパーパラメータの設定に敏感で再現性がより難しい、さまざまなデータ拡張、正規化、最適化アプローチで構成される。
本研究は, シャープネス認識最小化と自己蒸留という, モデル一般化性に対処する最近の2つのトレーニング戦略を共同で検討し, シャープネス認識蒸留教師(SADT)の新たなトレーニング戦略を提案する。
この研究の実験的セクションでは、SADTは、さまざまなニューラルネットワーク、データセット、ハイパーパラメータ設定に対するモデル収束時間、テスト時間パフォーマンス、モデル一般化性において、これまで公表されたトレーニング戦略を一貫して上回っている。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - MAST: Model-Agnostic Sparsified Training [4.962431253126472]
我々は、ブラックボックス関数として機械学習モデル損失を最小限に抑える従来の方法から外れた、新しい最適化問題の定式化を導入する。
従来の定式化とは異なり、提案手法は、初期訓練されたモデルとランダムスケッチ演算子を明示的に組み込む。
本稿では,新しい問題定式化に適応したグラディエント・ディキセント法(SGD)のいくつかの変種について述べる。
論文 参考訳(メタデータ) (2023-11-27T18:56:03Z) - Towards More Robust and Accurate Sequential Recommendation with
Cascade-guided Adversarial Training [54.56998723843911]
シーケンシャルレコメンデーションモデルの性質に特有の2つの特性は、その堅牢性を損なう可能性がある。
本稿では,シーケンシャルレコメンデーションモデルに特化して設計された,新たな逆行訓練法であるカスケード誘導逆行訓練を提案する。
論文 参考訳(メタデータ) (2023-04-11T20:55:02Z) - Homotopy-based training of NeuralODEs for accurate dynamics discovery [0.0]
我々は,同期とホモトピー最適化に基づくニューラルノードの新しいトレーニング手法を開発した。
モデルダイナミクスとトレーニングデータとを同期させることで、もともと不規則なロスランドスケープを味わうことを示す。
本手法は,トレーニングエポックの半数以下を必要としながら,競争力やより良いトレーニング損失を達成する。
論文 参考訳(メタデータ) (2022-10-04T06:32:45Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。