論文の概要: Train Like a (Var)Pro: Efficient Training of Neural Networks with
Variable Projection
- arxiv url: http://arxiv.org/abs/2007.13171v2
- Date: Mon, 19 Apr 2021 22:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 19:53:22.275919
- Title: Train Like a (Var)Pro: Efficient Training of Neural Networks with
Variable Projection
- Title(参考訳): train like a (var)pro: 可変射影を用いたニューラルネットワークの効率的なトレーニング
- Authors: Elizabeth Newman, Lars Ruthotto, Joseph Hart, Bart van Bloemen
Waanders
- Abstract要約: ディープニューラルネットワーク(DNN)は、さまざまな従来の機械学習タスクで最先端のパフォーマンスを達成した。
本稿では,多くの最先端アプリケーションで発生するDNNのトレーニングについて考察する。
- 参考スコア(独自算出の注目度): 2.7561479348365734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have achieved state-of-the-art performance across
a variety of traditional machine learning tasks, e.g., speech recognition,
image classification, and segmentation. The ability of DNNs to efficiently
approximate high-dimensional functions has also motivated their use in
scientific applications, e.g., to solve partial differential equations (PDE)
and to generate surrogate models. In this paper, we consider the supervised
training of DNNs, which arises in many of the above applications. We focus on
the central problem of optimizing the weights of the given DNN such that it
accurately approximates the relation between observed input and target data.
Devising effective solvers for this optimization problem is notoriously
challenging due to the large number of weights, non-convexity, data-sparsity,
and non-trivial choice of hyperparameters. To solve the optimization problem
more efficiently, we propose the use of variable projection (VarPro), a method
originally designed for separable nonlinear least-squares problems. Our main
contribution is the Gauss-Newton VarPro method (GNvpro) that extends the reach
of the VarPro idea to non-quadratic objective functions, most notably,
cross-entropy loss functions arising in classification. These extensions make
GNvpro applicable to all training problems that involve a DNN whose last layer
is an affine mapping, which is common in many state-of-the-art architectures.
In our four numerical experiments from surrogate modeling, segmentation, and
classification GNvpro solves the optimization problem more efficiently than
commonly-used stochastic gradient descent (SGD) schemes. Also, GNvpro finds
solutions that generalize well, and in all but one example better than
well-tuned SGD methods, to unseen data points.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、音声認識、画像分類、セグメンテーションなど、さまざまな伝統的な機械学習タスクで最先端のパフォーマンスを達成した。
DNNが高次元関数を効率的に近似する能力は、例えば偏微分方程式(PDE)の解法や代理モデルの生成など、科学的応用にもその利用を動機付けている。
本稿では,DNNの教師あり訓練について考察する。
得られたDNNの重み付けを最適化し、観測された入力データと対象データとの関係を正確に近似する中心的問題に焦点をあてる。
この最適化問題に対する効果的な解法の開発は、多くの重み、非凸性、データスパーシティ、非自明なハイパーパラメータの選択のため、非常に難しい。
最適化問題をより効率的に解くために,分離可能な非線形最小二乗問題の解法である可変射影法(VarPro)を提案する。
私たちの主な貢献は、varpro のアイデアを非二次目的関数、特に分類において生じるクロスエントロピー損失関数にまで拡張する gauss-newton varpro 法 (gnvpro) である。
これらの拡張によりgnvproは、多くの最先端アーキテクチャでよく見られるアフィンマッピングであるdnnを含むすべてのトレーニング問題に適用できる。
シュロゲートモデリング、セグメンテーション、分類GNvproの4つの数値実験では、一般的な確率勾配勾配(SGD)スキームよりも効率的に最適化問題を解く。
また、GNvproは、よく一般化する解を見つけ、よく調整されたSGD法よりも1つの例を除いて、見当たらないデータポイントを見つける。
関連論文リスト
- Enhancing GNNs Performance on Combinatorial Optimization by Recurrent Feature Update [0.09986418756990156]
本稿では,組合せ最適化(CO)問題を効率よく解くために,GNNのパワーを活用して,QRF-GNNと呼ぶ新しいアルゴリズムを提案する。
QUBO緩和による損失関数の最小化による教師なし学習に依存している。
実験の結果、QRF-GNNは既存の学習ベースアプローチを大幅に上回り、最先端の手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-07-23T13:34:35Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Data-informed Deep Optimization [3.331457049134526]
本稿では,データインフォームド・ディープ・最適化(DiDo)による高次元設計問題の解法を提案する。
我々は、ディープニューラルネットワーク(DNN)を用いて、実現可能な領域を学習し、目的関数に適合する実行可能なポイントをサンプリングする。
以上の結果から,DNN による DiDo のアプローチは柔軟で,現実的な高次元設計問題の解決に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-07-17T02:53:54Z) - dNNsolve: an efficient NN-based PDE solver [62.997667081978825]
ODE/PDEを解決するためにデュアルニューラルネットワークを利用するdNNsolveを紹介します。
我々は,dNNsolveが1,2,3次元の幅広いODE/PDEを解くことができることを示す。
論文 参考訳(メタデータ) (2021-03-15T19:14:41Z) - Deep Neural Networks Are Effective At Learning High-Dimensional
Hilbert-Valued Functions From Limited Data [6.098254376499899]
ヒルベルト値を持つ近似関数、すなわち、近似関数に焦点を当てる。
分離可能だが典型的には無限次元のヒルベルト空間で値を取る。
隠れ異方性を持つ正則関数に対するDNNトレーニングにおける新しい結果を示す。
ヒルベルト評価関数を DNN で学習する手法は,DNN と同様に機能するが,現在の最良クラススキームに匹敵するものではないことを示す。
論文 参考訳(メタデータ) (2020-12-11T02:02:14Z) - Towards an Efficient and General Framework of Robust Training for Graph
Neural Networks [96.93500886136532]
グラフニューラルネットワーク(GNN)は、いくつかの基本的な推論タスクに大きく進歩している。
GNNの目覚ましい性能にもかかわらず、グラフ構造上の摂動を慎重に作り、誤った予測を下すことが観察されている。
我々は,強靭なGNNを得るために,欲求探索アルゴリズムとゼロ階法を利用する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T15:17:58Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。