論文の概要: Implicit regularization via soft ascent-descent
- arxiv url: http://arxiv.org/abs/2310.10006v1
- Date: Mon, 16 Oct 2023 02:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:00:20.285210
- Title: Implicit regularization via soft ascent-descent
- Title(参考訳): ソフトアセンチュアによる暗黙の規則化
- Authors: Matthew J. Holland and Kosuke Nakatani
- Abstract要約: 最小限のトライアル・アンド・エラーで、より優れたオフサンプル一般化を実現する方法を示す。
我々は,軟弱化機構であるSoftADを提案し,下降重みが境界線を指差し,外れ値の影響を制限し,昇華・昇華効果を維持する。
私たちの経験的テストは、平面上の単純なバイナリ分類から、数百万のパラメータを持つニューラルネットワークを用いた画像分類まで様々です。
- 参考スコア(独自算出の注目度): 7.335712499936906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As models grow larger and more complex, achieving better off-sample
generalization with minimal trial-and-error is critical to the reliability and
economy of machine learning workflows. As a proxy for the well-studied
heuristic of seeking "flat" local minima, gradient regularization is a natural
avenue, and first-order approximations such as Flooding and sharpness-aware
minimization (SAM) have received significant attention, but their performance
depends critically on hyperparameters (flood threshold and neighborhood radius,
respectively) that are non-trivial to specify in advance. In order to develop a
procedure which is more resilient to misspecified hyperparameters, with the
hard-threshold "ascent-descent" switching device used in Flooding as
motivation, we propose a softened, pointwise mechanism called SoftAD that
downweights points on the borderline, limits the effects of outliers, and
retains the ascent-descent effect. We contrast formal stationarity guarantees
with those for Flooding, and empirically demonstrate how SoftAD can realize
classification accuracy competitive with SAM and Flooding while maintaining a
much smaller loss generalization gap and model norm. Our empirical tests range
from simple binary classification on the plane to image classification using
neural networks with millions of parameters; the key trends are observed across
all datasets and models studied, and suggest a potential new approach to
implicit regularization.
- Abstract(参考訳): モデルが大きくなり、より複雑になるにつれて、最小限の試行錯誤でサンプル外の一般化を向上することは、マシンラーニングワークフローの信頼性と経済性に不可欠である。
局所最小値を求めるためのよく研究されたヒューリスティックのプロキシとして、勾配正則化は自然の道であり、洪水やシャープネス認識最小化(SAM)のような一階近似は注目されているが、それらの性能は、事前に指定できないハイパーパラメータ(フロードしきい値と近傍半径)に大きく依存している。
不特定過度パラメータに対してより耐性の高い方法を開発するために,フルーディングで使用されるハードスレッショルド「アセンチュアルド」スイッチング装置をモチベーションとして,フルーディングにおいて下降重みが境界線を指差し,降降圧の影響を制限し,昇降圧効果を保ち,ソフトADと呼ばれるソフト化ポイントワイズ機構を提案する。
我々は形式的な定常性の保証と洪水の保証を比較し、より小さい損失一般化ギャップとモデル規範を維持しながら、softadがsamやフラッディングと競合する分類精度をどのように実現できるかを実証的に示す。
私たちの経験的なテストは、平面上の単純なバイナリ分類から、数百万のパラメータを持つニューラルネットワークによる画像分類まで様々です。
関連論文リスト
- Adversarial Robustness Overestimation and Instability in TRADES [4.063518154926961]
TRADES は多クラス分類タスクにおける AutoAttack テストの精度と比較して,PGD の検証精度が極めて高い場合が多い。
この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-10T07:32:40Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Semi-Supervised Deep Regression with Uncertainty Consistency and
Variational Model Ensembling via Bayesian Neural Networks [31.67508478764597]
我々は,半教師付き回帰,すなわち不確実連続変分モデル組立(UCVME)に対する新しいアプローチを提案する。
整合性損失は不確実性評価を著しく改善し,不整合回帰の下では,高品質な擬似ラベルをより重要視することができる。
実験の結果,本手法は様々なタスクにおける最先端の代替手段よりも優れており,フルラベルを用いた教師付き手法と競合する可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-15T10:40:51Z) - Test-Time Amendment with a Coarse Classifier for Fine-Grained
Classification [10.719054378755981]
階層的アンサンブル(HiE)と呼ばれるポストホック補正のための新しいアプローチを提案する。
HiEはラベル階層を利用して、粗い粒度予測を用いてテスト時のきめ細かい分類の性能を向上させる。
提案手法は,細粒度クラスにおいてトレーニングデータが減少するにつれて,誤りの重大度が著しく低下する一方で,トップ1の精度において顕著な向上をもたらす。
論文 参考訳(メタデータ) (2023-02-01T10:55:27Z) - Adaptive Dimension Reduction and Variational Inference for Transductive
Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。
提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-09-18T10:29:02Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。