論文の概要: Exploring Flat Minima for Domain Generalization with Large Learning
Rates
- arxiv url: http://arxiv.org/abs/2309.06337v1
- Date: Tue, 12 Sep 2023 15:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:11:48.594537
- Title: Exploring Flat Minima for Domain Generalization with Large Learning
Rates
- Title(参考訳): 学習率の高い領域一般化のためのフラットミニマ探索
- Authors: Jian Zhang, Lei Qi, Yinghuan Shi, Yang Gao
- Abstract要約: ドメインの一般化は、任意の未知のドメインに一般化することを目的としている。
このタスクの典型的な方法はSWADであり、トレーニング軌道に沿って重みを平均化する。
我々は,大きな学習率を活用することで,同時に体重の多様性を促進し,平坦な領域の同定を容易にすることを観察した。
- 参考スコア(独自算出の注目度): 33.770970763959355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain Generalization (DG) aims to generalize to arbitrary unseen domains. A
promising approach to improve model generalization in DG is the identification
of flat minima. One typical method for this task is SWAD, which involves
averaging weights along the training trajectory. However, the success of weight
averaging depends on the diversity of weights, which is limited when training
with a small learning rate. Instead, we observe that leveraging a large
learning rate can simultaneously promote weight diversity and facilitate the
identification of flat regions in the loss landscape. However, employing a
large learning rate suffers from the convergence problem, which cannot be
resolved by simply averaging the training weights. To address this issue, we
introduce a training strategy called Lookahead which involves the weight
interpolation, instead of average, between fast and slow weights. The fast
weight explores the weight space with a large learning rate, which is not
converged while the slow weight interpolates with it to ensure the convergence.
Besides, weight interpolation also helps identify flat minima by implicitly
optimizing the local entropy loss that measures flatness. To further prevent
overfitting during training, we propose two variants to regularize the training
weight with weighted averaged weight or with accumulated history weight. Taking
advantage of this new perspective, our methods achieve state-of-the-art
performance on both classification and semantic segmentation domain
generalization benchmarks. The code is available at
https://github.com/koncle/DG-with-Large-LR.
- Abstract(参考訳): domain generalization (dg) は任意の未発見領域に一般化することを目的としている。
dgのモデル一般化を改善するための有望なアプローチは、フラットミニマの同定である。
このタスクの典型的な方法はSWADであり、トレーニング軌道に沿って重みを平均化する。
しかし、体重平均化の成功は、少ない学習率でトレーニングする場合に制限される重みの多様性に依存する。
代わりに、大きな学習率を活用することで、重量の多様性を同時に促進し、損失景観における平坦な領域の識別を容易にすることが観察された。
しかし、大きな学習率を採用することは収束問題に悩まされ、単にトレーニング重量を平均化するだけでは解決できない。
この問題に対処するために,我々は,速さと低速さの間において平均ではなく,重み補間を伴うlookaheadと呼ばれるトレーニング戦略を導入する。
速い重みは、大きな学習率で重み空間を探索するが、これは収束しないが、遅い重みは収束を保証するためにそれを補間する。
さらに、重み補間は、平坦性を測定する局所エントロピー損失を暗黙的に最適化することで、平坦な極小さを特定するのに役立つ。
さらに,トレーニング中の過剰フィットを防止するため,重み付け平均重量または累積履歴重量でトレーニング重量を定式化する2つの変種を提案する。
この新たな視点を生かして,本手法は分類とセマンティックセグメンテーション領域の一般化ベンチマークにおいて最先端の性能を達成する。
コードはhttps://github.com/koncle/DG-with-Large-LRで入手できる。
関連論文リスト
- Lookaround Optimizer: $k$ steps around, 1 step average [36.207388029666625]
重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つの訓練軌道に沿って実行されることが多い。
そこで我々は,SGDに基づく単純かつ効果的な一般化であるLookaroundを提案する。
論文 参考訳(メタデータ) (2023-06-13T10:55:20Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - PA&DA: Jointly Sampling PAth and DAta for Consistent NAS [8.737995937682271]
ワンショットNASメソッドはスーパーネットをトレーニングし、トレーニング済みの重みを継承してサブモデルを評価する。
大規模な勾配分散は、スーパーネットのトレーニング中に発生し、スーパーネットのランキング一貫性を低下させる。
本稿では,PAth と DAta のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T17:14:24Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。