論文の概要: Deep Neural Network Training with Frank-Wolfe
- arxiv url: http://arxiv.org/abs/2010.07243v2
- Date: Wed, 21 Oct 2020 15:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:31:25.604023
- Title: Deep Neural Network Training with Frank-Wolfe
- Title(参考訳): Frank-Wolfeによるディープニューラルネットワークトレーニング
- Authors: Sebastian Pokutta and Christoph Spiegel and Max Zimmer
- Abstract要約: 本稿では、凸可能領域によってパラメータが制約されるニューラルネットワークのトレーニングの実現可能性を示す。
また、パフォーマンスへの影響に加えて、特定の制約の選択が学習した表現に大きな影響を与えることも示しています。
- 参考スコア(独自算出の注目度): 17.5320459412718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the empirical efficacy and benefits of using
projection-free first-order methods in the form of Conditional Gradients,
a.k.a. Frank-Wolfe methods, for training Neural Networks with constrained
parameters. We draw comparisons both to current state-of-the-art stochastic
Gradient Descent methods as well as across different variants of stochastic
Conditional Gradients. In particular, we show the general feasibility of
training Neural Networks whose parameters are constrained by a convex feasible
region using Frank-Wolfe algorithms and compare different stochastic variants.
We then show that, by choosing an appropriate region, one can achieve
performance exceeding that of unconstrained stochastic Gradient Descent and
matching state-of-the-art results relying on $L^2$-regularization. Lastly, we
also demonstrate that, besides impacting performance, the particular choice of
constraints can have a drastic impact on the learned representations.
- Abstract(参考訳): 本稿では,制約パラメータを用いたニューラルネットワークの学習のための条件勾配法(Frank-Wolfe法)として,プロジェクションフリーな一階法を用いる経験的効果とメリットについて検討する。
本研究では,現状の確率的勾配降下法と,確率的条件付き勾配の異なる変種の比較を行った。
特に,Frank-Wolfe アルゴリズムを用いて,パラメータが凸可能な領域で制約されたニューラルネットワークを訓練し,確率的変動を比較できる可能性を示す。
次に,適切な領域を選択することで,l^2$-regularization に依拠し,制約のない確率的勾配降下と最先端結果の一致よりも高い性能が得られることを示す。
最後に、パフォーマンスに影響を与えるだけでなく、制約の特定の選択が学習した表現に劇的な影響を与えることも示します。
関連論文リスト
- Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training [0.0]
本稿では,よく知られたFrank-Wolfeアルゴリズムの性能解析に焦点をあてる。
提案アルゴリズムは, 最適解に収束し, サブ線形収束率を示す。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
論文 参考訳(メタデータ) (2024-03-19T07:25:36Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features [65.64276393443346]
Frank-Wolfe (FW) 法は、構造化制約による最適化問題の解法として一般的な手法である。
有限サム勾配の最小化のためのアルゴリズムの2つの新しい変種を示す。
論文 参考訳(メタデータ) (2023-04-23T20:05:09Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Using Taylor-Approximated Gradients to Improve the Frank-Wolfe Method
for Empirical Risk Minimization [1.4504054468850665]
In Empirical Minimization -- Minimization -- We present a novel computer step-size approach to we have compute guarantees。
提案手法は実世界のバイナリデータセットに非常に重要な問題を示す。
また、計算の保証を得るための新しい適応的なステップサイズアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-30T00:08:37Z) - Interpretable Neural Networks with Frank-Wolfe: Sparse Relevance Maps
and Relevance Orderings [22.586474627159287]
RDE(Rate-Distortion Explanations)法を改訂することで、関係マップの空間性を正確に制御することができる。
フランク=ウルフアルゴリズムのいくつかの決定論的・決定論的変種とそのRDEに対する有効性を示す。
論文 参考訳(メタデータ) (2021-10-15T14:04:57Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - A Backward SDE Method for Uncertainty Quantification in Deep Learning [9.7140720884508]
本稿では,ニューラルネットワークのクラスを最適制御問題により定式化する確率論的機械学習手法を提案する。
最大原理に基づく効率的な降下アルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-11-28T15:19:36Z) - A Unified Convergence Analysis for Shuffling-Type Gradient Methods [32.8097849940763]
有限項問題を解くための一般化勾配シャッフル型法に対する統一収束解析を提案する。
以上の結果から,特定の神経シャッフル変種でのトレーニングに適する選択が示唆された。
論文 参考訳(メタデータ) (2020-02-19T15:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。