論文の概要: Implicit regularization via soft ascent-descent
- arxiv url: http://arxiv.org/abs/2310.10006v1
- Date: Mon, 16 Oct 2023 02:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:00:20.285210
- Title: Implicit regularization via soft ascent-descent
- Title(参考訳): ソフトアセンチュアによる暗黙の規則化
- Authors: Matthew J. Holland and Kosuke Nakatani
- Abstract要約: 最小限のトライアル・アンド・エラーで、より優れたオフサンプル一般化を実現する方法を示す。
我々は,軟弱化機構であるSoftADを提案し,下降重みが境界線を指差し,外れ値の影響を制限し,昇華・昇華効果を維持する。
私たちの経験的テストは、平面上の単純なバイナリ分類から、数百万のパラメータを持つニューラルネットワークを用いた画像分類まで様々です。
- 参考スコア(独自算出の注目度): 7.335712499936906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As models grow larger and more complex, achieving better off-sample
generalization with minimal trial-and-error is critical to the reliability and
economy of machine learning workflows. As a proxy for the well-studied
heuristic of seeking "flat" local minima, gradient regularization is a natural
avenue, and first-order approximations such as Flooding and sharpness-aware
minimization (SAM) have received significant attention, but their performance
depends critically on hyperparameters (flood threshold and neighborhood radius,
respectively) that are non-trivial to specify in advance. In order to develop a
procedure which is more resilient to misspecified hyperparameters, with the
hard-threshold "ascent-descent" switching device used in Flooding as
motivation, we propose a softened, pointwise mechanism called SoftAD that
downweights points on the borderline, limits the effects of outliers, and
retains the ascent-descent effect. We contrast formal stationarity guarantees
with those for Flooding, and empirically demonstrate how SoftAD can realize
classification accuracy competitive with SAM and Flooding while maintaining a
much smaller loss generalization gap and model norm. Our empirical tests range
from simple binary classification on the plane to image classification using
neural networks with millions of parameters; the key trends are observed across
all datasets and models studied, and suggest a potential new approach to
implicit regularization.
- Abstract(参考訳): モデルが大きくなり、より複雑になるにつれて、最小限の試行錯誤でサンプル外の一般化を向上することは、マシンラーニングワークフローの信頼性と経済性に不可欠である。
局所最小値を求めるためのよく研究されたヒューリスティックのプロキシとして、勾配正則化は自然の道であり、洪水やシャープネス認識最小化(SAM)のような一階近似は注目されているが、それらの性能は、事前に指定できないハイパーパラメータ(フロードしきい値と近傍半径)に大きく依存している。
不特定過度パラメータに対してより耐性の高い方法を開発するために,フルーディングで使用されるハードスレッショルド「アセンチュアルド」スイッチング装置をモチベーションとして,フルーディングにおいて下降重みが境界線を指差し,降降圧の影響を制限し,昇降圧効果を保ち,ソフトADと呼ばれるソフト化ポイントワイズ機構を提案する。
我々は形式的な定常性の保証と洪水の保証を比較し、より小さい損失一般化ギャップとモデル規範を維持しながら、softadがsamやフラッディングと競合する分類精度をどのように実現できるかを実証的に示す。
私たちの経験的なテストは、平面上の単純なバイナリ分類から、数百万のパラメータを持つニューラルネットワークによる画像分類まで様々です。
関連論文リスト
- Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z) - Adversarial Robustness via Fisher-Rao Regularization [33.134075068748984]
適応的堅牢性は、機械学習への関心の高まりのトピックとなっている。
火はカテゴリーのクロスエントロピー損失に対する新しいフィッシャー・ラオ正規化である。
論文 参考訳(メタデータ) (2021-06-12T04:12:58Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adversarial Classification via Distributional Robustness with
Wasserstein Ambiguity [12.576828231302134]
ワッサーシュタインの曖昧さの下では、モデルは誤分類のリスクを最小限にすることを目的としている。
この分類の非整合性にもかかわらず、標準降下法はこの問題に対して収束しているように見える。
論文 参考訳(メタデータ) (2020-05-28T07:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。