Fugu-MT 論文翻訳(概要): G-TRACER: Expected Sharpness Optimization

論文の概要: G-TRACER: Expected Sharpness Optimization

arxiv url: http://arxiv.org/abs/2306.13914v1
Date: Sat, 24 Jun 2023 09:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 18:20:27.274846
Title: G-TRACER: Expected Sharpness Optimization
Title（参考訳）: g-tracer: 期待シャープネス最適化
Authors: John Williams, Stephen Roberts
Abstract要約: G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
参考スコア（独自算出の注目度）: 1.2183405753834562
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new regularization scheme for the optimization of deep learning architectures, G-TRACER ("Geometric TRACE Ratio"), which promotes generalization by seeking flat minima, and has a sound theoretical basis as an approximation to a natural-gradient descent based optimization of a generalized Bayes objective. By augmenting the loss function with a TRACER, curvature-regularized optimizers (eg SGD-TRACER and Adam-TRACER) are simple to implement as modifications to existing optimizers and don't require extensive tuning. We show that the method converges to a neighborhood (depending on the regularization strength) of a local minimum of the unregularized objective, and demonstrate competitive performance on a number of benchmark computer vision and NLP datasets, with a particular focus on challenging low signal-to-noise ratio problems.
Abstract（参考訳）: 本稿では,フラットな極小を求めることで一般化を促進するg-tracer(geometric trace ratio)というディープラーニングアーキテクチャの最適化のための新しい正規化手法を提案する。損失関数をトレーサで拡張することで、曲率正規化オプティマイザ(sgd-tracerやadam-tracerなど)は既存のオプティマイザの修正として実装するのが簡単になり、広範なチューニングは不要になる。本手法は,非正規目的の局所的最小値の近傍(正規化強度に依存する)に収束し,多くのベンチマークコンピュータビジョンとnlpデータセットにおいて,特に低信号対雑音比問題への挑戦に焦点をあてた競合性能を示す。

関連論文リスト

Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文参考訳（メタデータ） (2025-03-16T11:05:51Z)
Parameter Tracking in Federated Learning with Adaptive Optimization [14.111863825607001]
フェデレートラーニング(FL)では、モデルトレーニングのパフォーマンスはクライアント間のデータ不均一性に強く影響されます。 GT(Gradient Tracking)は、最近、局所モデル更新に修正項を導入することでこの問題を軽減するソリューションとして登場した。現在まで、GTはグラディエント(SGD)ベースのDescentトレーニングしか考慮されていないが、現代のFLフレームワークは収束を改善するために適応性を採用する傾向にある。
論文参考訳（メタデータ） (2025-02-04T21:21:30Z)
Regularized second-order optimization of tensor-network Born machines [2.8834278113855896]
ボルンマシン(英: Born Machine、TNBM)は、データ分布を学習するための量子インスパイアされた生成モデルである。そこで本研究では,TNBMトレーニングにおける2次最適化手法を改良し,収束率と最適化モデルの品質を大幅に向上させる。
論文参考訳（メタデータ） (2025-01-30T19:00:04Z)
Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。高速グラフシャープネス認識最小化(FGSAM)を提案する。提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文参考訳（メタデータ） (2024-10-22T09:33:29Z)
Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [10.564071872770146]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。最適パラメトリック解を特徴付ける。歪みと知覚制約について十分な条件を提供する。
論文参考訳（メタデータ） (2024-08-27T12:50:12Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Beyond Single-Model Views for Deep Learning: Optimization versus Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2024-03-01T14:55:22Z)
Optimal Guarantees for Algorithmic Reproducibility and Gradient Complexity in Convex Optimization [55.115992622028685]
以前の研究は、一階法はより良い収束率(漸進収束率)をトレードオフする必要があることを示唆している。最適複雑性と準最適収束保証の両方を、滑らかな凸最小化と滑らかな凸最小化問題に対して達成できることを実証する。
論文参考訳（メタデータ） (2023-10-26T19:56:52Z)
SING: A Plug-and-Play DNN Learning Technique [25.563053353709627]
我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。 SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
論文参考訳（メタデータ） (2023-05-25T12:39:45Z)
Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。 tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文参考訳（メタデータ） (2023-05-19T10:47:44Z)
BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。 BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文参考訳（メタデータ） (2020-09-29T06:12:32Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。