論文の概要: Projected Forward Gradient-Guided Frank-Wolfe Algorithm via Variance Reduction
- arxiv url: http://arxiv.org/abs/2403.12511v3
- Date: Wed, 25 Dec 2024 07:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:04.705409
- Title: Projected Forward Gradient-Guided Frank-Wolfe Algorithm via Variance Reduction
- Title(参考訳): ばらつき低減による前方勾配誘導フランクウルフアルゴリズムの予測
- Authors: M. Rostami, S. S. Kia,
- Abstract要約: 本稿では、深層ニューラルネットワークのトレーニングにフランク・ウルフアルゴリズム(FW)を用いることを目標とする。
任意のアルゴリズムと同様に、FWはDNNの計算において高い計算メモリコストに悩まされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to enhance the use of the Frank-Wolfe (FW) algorithm for training deep neural networks. Similar to any gradient-based optimization algorithm, FW suffers from high computational and memory costs when computing gradients for DNNs. This paper introduces the application of the recently proposed projected forward gradient (Projected-FG) method to the FW framework, offering reduced computational cost similar to backpropagation and low memory utilization akin to forward propagation. Our results show that trivial application of the Projected-FG introduces non-vanishing convergence error due to the stochastic noise that the Projected-FG method introduces in the process. This noise results in an non-vanishing variance in the Projected-FG estimated gradient. To address this, we propose a variance reduction approach by aggregating historical Projected-FG directions. We demonstrate rigorously that this approach ensures convergence to the optimal solution for convex functions and to a stationary point for non-convex functions. These convergence properties are validated through a numerical example, showcasing the approach's effectiveness and efficiency.
- Abstract(参考訳): 本稿では、深層ニューラルネットワークのトレーニングにフランク・ウルフアルゴリズム(FW)を用いることを目標とする。
勾配に基づく最適化アルゴリズムと同様に、FWはDNNの勾配を計算する際に高い計算コストとメモリコストに悩まされる。
本稿では、最近提案されたフォワード勾配法(Projected-FG)をFWフレームワークに適用し、フォワード伝播に類似したバックプロパゲーションや低メモリ利用の計算コストを削減した。
その結果,Projected-FG法が提案する確率的雑音に起因して,予測FG法が不要な収束誤差を生じさせることが示唆された。
このノイズは、射影-FG推定勾配の非消滅的なばらつきをもたらす。
そこで本稿では,歴史的投影FGの方向を集約した分散低減手法を提案する。
このアプローチが凸関数の最適解と非凸関数の定常点に収束することを厳密に証明する。
これらの収束特性は数値的な例を通して検証され、アプローチの有効性と効率を示す。
関連論文リスト
- Enhanced Derivative-Free Optimization Using Adaptive Correlation-Induced Finite Difference Estimators [6.054123928890574]
勾配推定効率とサンプル効率の両面からDFOを向上させるアルゴリズムを開発した。
提案アルゴリズムの整合性を確立し,反復毎にサンプルのバッチを用いても,KW法やSPSA法と同じ収束率が得られることを示した。
論文 参考訳(メタデータ) (2025-02-28T08:05:54Z) - An Enhanced Zeroth-Order Stochastic Frank-Wolfe Framework for Constrained Finite-Sum Optimization [15.652261277429968]
本稿では,制約付き有限サム最適化問題に対処するため,ゼロ階凸計算を改良したFrank-Wolfeを提案する。
本手法では,ゼロ次オラクルによる近似を効果的に低減する新しい二重分散低減フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-13T10:53:19Z) - Beyond Backpropagation: Optimization with Multi-Tangent Forward Gradients [0.08388591755871733]
前向き勾配は、前方モード自動微分によって計算されたランダム接線に沿った方向微分からの勾配を近似するアプローチである。
本稿では,マルチタングルト前方勾配の詳細な解析を行い,プロジェクションに基づく複数の接点からの前方勾配を組み合わせるための改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-23T11:02:59Z) - Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Randomized Forward Mode of Automatic Differentiation For Optimization
Algorithms [0.0]
バックプロパゲーションの代替としてランダム化フォワードモード勾配(RFG)を提案する。
確率分布はRFGの統計特性を決定する。
勾配をRFGに置き換えることで、RFGに基づく最適化アルゴリズムのクラスが得られる。
論文 参考訳(メタデータ) (2023-10-22T04:02:39Z) - Efficient Gradient Approximation Method for Constrained Bilevel
Optimization [2.0305676256390934]
大規模高次元データを用いたバイレベル最適化が開発されている。
本稿では凸と微分不可能な近似を伴う制約付き二値問題について考察する。
論文 参考訳(メタデータ) (2023-02-03T19:34:56Z) - Gradients without Backpropagation [16.928279365071916]
本稿では、フォワードモードによって正確に効率的に計算できる方向微分のみに基づいて勾配を計算する方法を提案する。
様々な問題において前方降下勾配を示し、計算の大幅な削減を示し、場合によっては最大2倍の速さで訓練を可能にする。
論文 参考訳(メタデータ) (2022-02-17T11:07:55Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Projection-Free Adaptive Gradients for Large-Scale Optimization [22.0439695290991]
フランク=ウルフアルゴリズムは、目的から近似した一階情報のみをクエリすることで、両方の計算負担を軽減するため、ユニークな位置を占める。
本手法は,制約付き最適化のための適応アルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:56:12Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。