論文の概要: G-TRACER: Expected Sharpness Optimization
- arxiv url: http://arxiv.org/abs/2306.13914v1
- Date: Sat, 24 Jun 2023 09:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:20:27.274846
- Title: G-TRACER: Expected Sharpness Optimization
- Title(参考訳): g-tracer: 期待シャープネス最適化
- Authors: John Williams, Stephen Roberts
- Abstract要約: G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。
本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new regularization scheme for the optimization of deep learning
architectures, G-TRACER ("Geometric TRACE Ratio"), which promotes
generalization by seeking flat minima, and has a sound theoretical basis as an
approximation to a natural-gradient descent based optimization of a generalized
Bayes objective. By augmenting the loss function with a TRACER,
curvature-regularized optimizers (eg SGD-TRACER and Adam-TRACER) are simple to
implement as modifications to existing optimizers and don't require extensive
tuning. We show that the method converges to a neighborhood (depending on the
regularization strength) of a local minimum of the unregularized objective, and
demonstrate competitive performance on a number of benchmark computer vision
and NLP datasets, with a particular focus on challenging low signal-to-noise
ratio problems.
- Abstract(参考訳): 本稿では,フラットな極小を求めることで一般化を促進するg-tracer(geometric trace ratio)というディープラーニングアーキテクチャの最適化のための新しい正規化手法を提案する。
損失関数をトレーサで拡張することで、曲率正規化オプティマイザ(sgd-tracerやadam-tracerなど)は既存のオプティマイザの修正として実装するのが簡単になり、広範なチューニングは不要になる。
本手法は,非正規目的の局所的最小値の近傍(正規化強度に依存する)に収束し,多くのベンチマークコンピュータビジョンとnlpデータセットにおいて,特に低信号対雑音比問題への挑戦に焦点をあてた競合性能を示す。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [10.564071872770146]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
最適パラメトリック解を特徴付ける。
歪みと知覚制約について十分な条件を提供する。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Optimal Guarantees for Algorithmic Reproducibility and Gradient
Complexity in Convex Optimization [55.115992622028685]
以前の研究は、一階法はより良い収束率(漸進収束率)をトレードオフする必要があることを示唆している。
最適複雑性と準最適収束保証の両方を、滑らかな凸最小化と滑らかな凸最小化問題に対して達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-26T19:56:52Z) - SING: A Plug-and-Play DNN Learning Technique [25.563053353709627]
我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
論文 参考訳(メタデータ) (2023-05-25T12:39:45Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。