Fugu-MT 論文翻訳(概要): The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks

論文の概要: The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks

arxiv url: http://arxiv.org/abs/2405.18498v1
Date: Tue, 28 May 2024 18:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 22:13:00.895902
Title: The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks
Title（参考訳）: 視覚課題における第2モーメント指数スケーリング最適化器の統一バランス理論
Authors: Gongyue Zhang, Honghai Liu,
Abstract要約: SGDと適応性はより広い推論の下で統一可能であることを示唆する。いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。
参考スコア（独自算出の注目度）: 4.309676284145538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We have identified a potential method for unifying first-order optimizers through the use of variable Second-Moment Exponential Scaling(SMES). We begin with back propagation, addressing classic phenomena such as gradient vanishing and explosion, as well as issues related to dataset sparsity, and introduce the theory of balance in optimization. Through this theory, we suggest that SGD and adaptive optimizers can be unified under a broader inference, employing variable moving exponential scaling to achieve a balanced approach within a generalized formula for first-order optimizers. We conducted tests on some classic datasets and networks to confirm the impact of different balance coefficients on the overall training process.
Abstract（参考訳）: 可変第2モーメント指数スケーリング(SMES)を用いて、一階最適化器を統一する潜在的な方法を特定した。バック伝搬から始まり、勾配の消滅や爆発のような古典的な現象に対処し、データセットのスパーシリティに関連する問題に対処し、最適化におけるバランスの理論を導入する。この理論により、SGDと適応オプティマイザはより広範な推論の下で統一され、一階オプティマイザの一般化された公式内でバランスの取れたアプローチを達成するために、変動的な指数的スケーリングを採用することが提案される。いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。

関連論文リスト

Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
Improving Equivariant Model Training via Constraint Relaxation [31.507956579770088]
等価ニューラルネットワークは、基礎となるデータ対称性が知られているタスクでうまく一般化できるため、様々なアプリケーションで広く利用されている。そこで本研究では,トレーニング中の厳密な均衡制約を緩和することにより,そのようなモデルの最適化を改善する新しい枠組みを提案する。本研究では,様々な最先端ネットワークアーキテクチャの実験結果を提供し,このトレーニングフレームワークが一般化性能を向上した同変モデルを実現する方法を示す。
論文参考訳（メタデータ） (2024-08-23T17:35:08Z)
Adam with model exponential moving average is effective for nonconvex optimization [45.242009309234305]
本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
論文参考訳（メタデータ） (2024-05-28T14:08:04Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文参考訳（メタデータ） (2022-07-05T15:39:29Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
Accelerating Stochastic Probabilistic Inference [1.599072005190786]
変分推論(SVI)は確率モデルの良好な後部近似を求める能力により、ますます魅力的になっている。最先端のSVIアルゴリズムのほとんど全てが一階最適化に基づいており、しばしば収束率の低下に悩まされている。我々は二階法と変分推論のギャップを二階法に基づく変分推論手法によって埋める。
論文参考訳（メタデータ） (2022-03-15T01:19:12Z)
Learning Stochastic Graph Neural Networks with Constrained Variance [18.32587282139282]
グラフニューラルネットワーク(Graph Neural Network, SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。本稿では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と偏差のバランスをとる。降下したSGNNパラメータと昇降した双対変数を更新することで問題を解く。
論文参考訳（メタデータ） (2022-01-29T15:55:58Z)
Generalization Properties of Stochastic Optimizers via Trajectory Analysis [48.38493838310503]
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
論文参考訳（メタデータ） (2021-08-02T10:58:32Z)
Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。 Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文参考訳（メタデータ） (2020-10-15T18:09:48Z)
Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文参考訳（メタデータ） (2020-02-16T09:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。