論文の概要: Projected Forward Gradient-Guided Frank-Wolfe Algorithm via Variance Reduction
- arxiv url: http://arxiv.org/abs/2403.12511v3
- Date: Wed, 25 Dec 2024 07:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:21:20.840974
- Title: Projected Forward Gradient-Guided Frank-Wolfe Algorithm via Variance Reduction
- Title(参考訳): ばらつき低減による前方勾配誘導フランクウルフアルゴリズムの予測
- Authors: M. Rostami, S. S. Kia,
- Abstract要約: 本稿では、深層ニューラルネットワークのトレーニングにフランク・ウルフアルゴリズム(FW)を用いることを目標とする。
任意のアルゴリズムと同様に、FWはDNNの計算において高い計算メモリコストに悩まされる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper aims to enhance the use of the Frank-Wolfe (FW) algorithm for training deep neural networks. Similar to any gradient-based optimization algorithm, FW suffers from high computational and memory costs when computing gradients for DNNs. This paper introduces the application of the recently proposed projected forward gradient (Projected-FG) method to the FW framework, offering reduced computational cost similar to backpropagation and low memory utilization akin to forward propagation. Our results show that trivial application of the Projected-FG introduces non-vanishing convergence error due to the stochastic noise that the Projected-FG method introduces in the process. This noise results in an non-vanishing variance in the Projected-FG estimated gradient. To address this, we propose a variance reduction approach by aggregating historical Projected-FG directions. We demonstrate rigorously that this approach ensures convergence to the optimal solution for convex functions and to a stationary point for non-convex functions. These convergence properties are validated through a numerical example, showcasing the approach's effectiveness and efficiency.
- Abstract(参考訳): 本稿では、深層ニューラルネットワークのトレーニングにフランク・ウルフアルゴリズム(FW)を用いることを目標とする。
勾配に基づく最適化アルゴリズムと同様に、FWはDNNの勾配を計算する際に高い計算コストとメモリコストに悩まされる。
本稿では、最近提案されたフォワード勾配法(Projected-FG)をFWフレームワークに適用し、フォワード伝播に類似したバックプロパゲーションや低メモリ利用の計算コストを削減した。
その結果,Projected-FG法が提案する確率的雑音に起因して,予測FG法が不要な収束誤差を生じさせることが示唆された。
このノイズは、射影-FG推定勾配の非消滅的なばらつきをもたらす。
そこで本稿では,歴史的投影FGの方向を集約した分散低減手法を提案する。
このアプローチが凸関数の最適解と非凸関数の定常点に収束することを厳密に証明する。
これらの収束特性は数値的な例を通して検証され、アプローチの有効性と効率を示す。
関連論文リスト
- An Enhanced Zeroth-Order Stochastic Frank-Wolfe Framework for Constrained Finite-Sum Optimization [15.652261277429968]
本稿では,制約付き有限サム最適化問題に対処するため,ゼロ階凸計算を改良したFrank-Wolfeを提案する。
本手法では,ゼロ次オラクルによる近似を効果的に低減する新しい二重分散低減フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-13T10:53:19Z) - Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - Randomized Forward Mode of Automatic Differentiation For Optimization
Algorithms [0.0]
バックプロパゲーションの代替としてランダム化フォワードモード勾配(RFG)を提案する。
確率分布はRFGの統計特性を決定する。
勾配をRFGに置き換えることで、RFGに基づく最適化アルゴリズムのクラスが得られる。
論文 参考訳(メタデータ) (2023-10-22T04:02:39Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Projection-Free Adaptive Gradients for Large-Scale Optimization [22.0439695290991]
フランク=ウルフアルゴリズムは、目的から近似した一階情報のみをクエリすることで、両方の計算負担を軽減するため、ユニークな位置を占める。
本手法は,制約付き最適化のための適応アルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:56:12Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。