Fugu-MT 論文翻訳(概要): Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning Optimization Landscape

論文の概要: Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning Optimization Landscape

arxiv url: http://arxiv.org/abs/2201.08025v1
Date: Thu, 20 Jan 2022 07:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 23:31:25.074421
Title: Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning Optimization Landscape
Title（参考訳）: 深層学習最適化景観におけるフラットオプティマス回復のための低パスフィルタSGD
Authors: Devansh Bisla, Jing Wang, Anna Choromanska
Abstract要約: LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
参考スコア（独自算出の注目度）: 15.362190838843915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we study the sharpness of a deep learning (DL) loss landscape around local minima in order to reveal systematic mechanisms underlying the generalization abilities of DL models. Our analysis is performed across varying network and optimizer hyper-parameters, and involves a rich family of different sharpness measures. We compare these measures and show that the low-pass filter-based measure exhibits the highest correlation with the generalization abilities of DL models, has high robustness to both data and label noise, and furthermore can track the double descent behavior for neural networks. We next derive the optimization algorithm, relying on the low-pass filter (LPF), that actively searches the flat regions in the DL optimization landscape using SGD-like procedure. The update of the proposed algorithm, that we call LPF-SGD, is determined by the gradient of the convolution of the filter kernel with the loss function and can be efficiently computed using MC sampling. We empirically show that our algorithm achieves superior generalization performance compared to the common DL training strategies. On the theoretical front, we prove that LPF-SGD converges to a better optimal point with smaller generalization error than SGD.
Abstract（参考訳）: 本稿では,ローカル・ミニマ周辺における深層学習(DL)損失景観のシャープさについて検討し,DLモデルの一般化能力に基づく体系的メカニズムを明らかにする。我々の分析は、様々なネットワークと最適化パラメータにまたがって行われ、様々なシャープネス対策を施す。これらの尺度を比較し,低パスフィルタに基づく尺度がdlモデルの一般化能力と最も高い相関を示し,データとラベルノイズの両方に対して高い頑健性を示し,さらにニューラルネットワークの二重降下挙動を追跡できることを示した。次に,SGDライクな手法を用いて,DL最適化ランドスケープ内の平坦領域を積極的に探索する低域フィルタ (LPF) を用いて最適化アルゴリズムを導出する。 LPF-SGDと呼ばれる提案アルゴリズムの更新は、フィルタカーネルと損失関数との畳み込みの勾配によって決定され、MCサンプリングを用いて効率的に計算できる。実験により,本アルゴリズムは一般のDLトレーニング戦略と比較して,優れた一般化性能が得られることを示す。理論面では、LPF-SGD が SGD よりも小さい一般化誤差でより良い最適点に収束することを証明している。

関連論文リスト

Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文参考訳（メタデータ） (2025-04-02T16:31:39Z)
LoKO: Low-Rank Kalman Optimizer for Online Fine-Tuning of Large Models [21.889177019111525]
数百万から数十億のパラメータを持つ大規模モデルをスクラッチからトレーニングすると、かなりの計算コストが発生する。低ランク適応 (LoRA) を用いて, 勾配に基づく特定のタスクに対して, パラメータ数の削減のみを適応させる。我々は、十分に確立されたコンピュータビジョンと言語モデルでうまく機能する堅牢なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-15T12:41:31Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文参考訳（メタデータ） (2024-04-16T20:01:10Z)
Beyond Single-Model Views for Deep Learning: Optimization versus Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2024-03-01T14:55:22Z)
Low-Rank Representations Meets Deep Unfolding: A Generalized and Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文参考訳（メタデータ） (2024-02-23T14:15:58Z)
SING: A Plug-and-Play DNN Learning Technique [25.563053353709627]
我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。 SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
論文参考訳（メタデータ） (2023-05-25T12:39:45Z)
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。 MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文参考訳（メタデータ） (2023-05-22T16:13:05Z)
Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。 w.r.t.は局所的に厳密な下界の目的である。反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文参考訳（メタデータ） (2022-03-23T19:06:16Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。