論文の概要: Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training
- arxiv url: http://arxiv.org/abs/2403.12511v1
- Date: Tue, 19 Mar 2024 07:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:02:36.251088
- Title: Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training
- Title(参考訳): メモリ効率のよい深層ニューラルネットワークトレーニングのためのフォワードグラディエントベースFrank-Wolfe最適化
- Authors: M. Rostami, S. S. Kia,
- Abstract要約: 本稿では,よく知られたFrank-Wolfeアルゴリズムの性能解析に焦点をあてる。
提案アルゴリズムは, 最適解に収束し, サブ線形収束率を示す。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a deep neural network using gradient-based methods necessitates the calculation of gradients at each level. However, using backpropagation or reverse mode differentiation, to calculate the gradients necessities significant memory consumption, rendering backpropagation an inefficient method for computing gradients. This paper focuses on analyzing the performance of the well-known Frank-Wolfe algorithm, a.k.a. conditional gradient algorithm by having access to the forward mode of automatic differentiation to compute gradients. We provide in-depth technical details that show the proposed Algorithm does converge to the optimal solution with a sub-linear rate of convergence by having access to the noisy estimate of the true gradient obtained in the forward mode of automated differentiation, referred to as the Projected Forward Gradient. In contrast, the standard Frank-Wolfe algorithm, when provided with access to the Projected Forward Gradient, fails to converge to the optimal solution. We demonstrate the convergence attributes of our proposed algorithms using a numerical example.
- Abstract(参考訳): 勾配に基づく手法を用いたディープニューラルネットワークのトレーニングは、各レベルの勾配の計算を必要とする。
しかし、バックプロパゲーションやリバースモードの微分を用いて、大きなメモリ消費を必要とする勾配を計算することで、バックプロパゲーションは勾配を計算する非効率な方法である。
本稿では,Frank-Wolfeアルゴリズム,すなわち条件勾配アルゴリズムの性能解析に焦点をあてる。
本稿では,自動微分の前方モードで得られる真の勾配のノイズ推定値にアクセスすることにより,提案アルゴリズムが最適解に収束することを示す,詳細な技術的詳細を提供する。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
数値的な例を用いて提案アルゴリズムの収束特性を実証する。
関連論文リスト
- An Enhanced Zeroth-Order Stochastic Frank-Wolfe Framework for Constrained Finite-Sum Optimization [15.652261277429968]
本稿では,制約付き有限サム最適化問題に対処するため,ゼロ階凸計算を改良したFrank-Wolfeを提案する。
本手法では,ゼロ次オラクルによる近似を効果的に低減する新しい二重分散低減フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-13T10:53:19Z) - Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - Randomized Forward Mode of Automatic Differentiation For Optimization
Algorithms [0.0]
バックプロパゲーションの代替としてランダム化フォワードモード勾配(RFG)を提案する。
確率分布はRFGの統計特性を決定する。
勾配をRFGに置き換えることで、RFGに基づく最適化アルゴリズムのクラスが得られる。
論文 参考訳(メタデータ) (2023-10-22T04:02:39Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Projection-Free Adaptive Gradients for Large-Scale Optimization [22.0439695290991]
フランク=ウルフアルゴリズムは、目的から近似した一階情報のみをクエリすることで、両方の計算負担を軽減するため、ユニークな位置を占める。
本手法は,制約付き最適化のための適応アルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:56:12Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。