論文の概要: Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training
- arxiv url: http://arxiv.org/abs/2403.12511v1
- Date: Tue, 19 Mar 2024 07:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:02:36.251088
- Title: Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training
- Title(参考訳): メモリ効率のよい深層ニューラルネットワークトレーニングのためのフォワードグラディエントベースFrank-Wolfe最適化
- Authors: M. Rostami, S. S. Kia,
- Abstract要約: 本稿では,よく知られたFrank-Wolfeアルゴリズムの性能解析に焦点をあてる。
提案アルゴリズムは, 最適解に収束し, サブ線形収束率を示す。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a deep neural network using gradient-based methods necessitates the calculation of gradients at each level. However, using backpropagation or reverse mode differentiation, to calculate the gradients necessities significant memory consumption, rendering backpropagation an inefficient method for computing gradients. This paper focuses on analyzing the performance of the well-known Frank-Wolfe algorithm, a.k.a. conditional gradient algorithm by having access to the forward mode of automatic differentiation to compute gradients. We provide in-depth technical details that show the proposed Algorithm does converge to the optimal solution with a sub-linear rate of convergence by having access to the noisy estimate of the true gradient obtained in the forward mode of automated differentiation, referred to as the Projected Forward Gradient. In contrast, the standard Frank-Wolfe algorithm, when provided with access to the Projected Forward Gradient, fails to converge to the optimal solution. We demonstrate the convergence attributes of our proposed algorithms using a numerical example.
- Abstract(参考訳): 勾配に基づく手法を用いたディープニューラルネットワークのトレーニングは、各レベルの勾配の計算を必要とする。
しかし、バックプロパゲーションやリバースモードの微分を用いて、大きなメモリ消費を必要とする勾配を計算することで、バックプロパゲーションは勾配を計算する非効率な方法である。
本稿では,Frank-Wolfeアルゴリズム,すなわち条件勾配アルゴリズムの性能解析に焦点をあてる。
本稿では,自動微分の前方モードで得られる真の勾配のノイズ推定値にアクセスすることにより,提案アルゴリズムが最適解に収束することを示す,詳細な技術的詳細を提供する。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
数値的な例を用いて提案アルゴリズムの収束特性を実証する。
関連論文リスト
- Beyond Backpropagation: Optimization with Multi-Tangent Forward Gradients [0.08388591755871733]
前向き勾配は、前方モード自動微分によって計算されたランダム接線に沿った方向微分からの勾配を近似するアプローチである。
本稿では,マルチタングルト前方勾配の詳細な解析を行い,プロジェクションに基づく複数の接点からの前方勾配を組み合わせるための改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-23T11:02:59Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Efficient Gradient Approximation Method for Constrained Bilevel
Optimization [2.0305676256390934]
大規模高次元データを用いたバイレベル最適化が開発されている。
本稿では凸と微分不可能な近似を伴う制約付き二値問題について考察する。
論文 参考訳(メタデータ) (2023-02-03T19:34:56Z) - Gradients without Backpropagation [16.928279365071916]
本稿では、フォワードモードによって正確に効率的に計算できる方向微分のみに基づいて勾配を計算する方法を提案する。
様々な問題において前方降下勾配を示し、計算の大幅な削減を示し、場合によっては最大2倍の速さで訓練を可能にする。
論文 参考訳(メタデータ) (2022-02-17T11:07:55Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Projection-Free Adaptive Gradients for Large-Scale Optimization [22.0439695290991]
フランク=ウルフアルゴリズムは、目的から近似した一階情報のみをクエリすることで、両方の計算負担を軽減するため、ユニークな位置を占める。
本手法は,制約付き最適化のための適応アルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:56:12Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。