論文の概要: An alternative approach to train neural networks using monotone
variational inequality
- arxiv url: http://arxiv.org/abs/2202.08876v4
- Date: Mon, 11 Mar 2024 18:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:45:35.537893
- Title: An alternative approach to train neural networks using monotone
variational inequality
- Title(参考訳): 単調変分不等式を用いたニューラルネットワークの訓練方法
- Authors: Chen Xu, Xiuyuan Cheng, Yao Xie
- Abstract要約: 本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
- 参考スコア(独自算出の注目度): 22.320632565424745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an alternative approach to neural network training using the
monotone vector field, an idea inspired by the seminal work of Juditsky and
Nemirovski [Juditsky & Nemirovsky, 2019] developed originally to solve
parameter estimation problems for generalized linear models (GLM) by reducing
the original non-convex problem to a convex problem of solving a monotone
variational inequality (VI). Our approach leads to computationally efficient
procedures that converge fast and offer guarantee in some special cases, such
as training a single-layer neural network or fine-tuning the last layer of the
pre-trained model. Our approach can be used for more efficient fine-tuning of a
pre-trained model while freezing the bottom layers, an essential step for
deploying many machine learning models such as large language models (LLM). We
demonstrate its applicability in training fully-connected (FC) neural networks,
graph neural networks (GNN), and convolutional neural networks (CNN) and show
the competitive or better performance of our approach compared to stochastic
gradient descent methods on both synthetic and real network data prediction
tasks regarding various performance metrics.
- Abstract(参考訳): Juditsky & Nemirovsky, 2019) は、もともと一般化線形モデル (GLM) のパラメータ推定問題を、元の非凸問題を単調変動不等式 (VI) を解く凸問題に還元することで解くために開発された。
この手法は,単一層ニューラルネットワークのトレーニングや事前学習したモデルの最後のレイヤの微調整など,いくつかの特別なケースにおいて高速に収束し,保証を提供する計算効率の高い手順をもたらす。
提案手法は,大規模言語モデル(LLM)などの機械学習モデルをデプロイするための重要なステップである底層を凍結しながら,事前学習したモデルのより効率的な微調整に利用できる。
我々は,完全連結(FC)ニューラルネットワーク,グラフニューラルネットワーク(GNN),畳み込みニューラルネットワーク(CNN)のトレーニングへの適用性を実証し,様々なパフォーマンス指標に関する,合成および実ネットワークデータ予測タスクにおける確率的勾配降下法と比較して,我々のアプローチの競争力あるいは優れた性能を示す。
関連論文リスト
- The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Analyzing Populations of Neural Networks via Dynamical Model Embedding [10.455447557943463]
ディープニューラルネットワークの解釈における中核的な課題は、同じタスクのためにトレーニングされた異なるネットワークによって実装された基盤となるアルゴリズム間の共通点を特定することである。
この問題に触発されたDYNAMOは,各点がニューラルネットワークモデルに対応する低次元多様体を構築するアルゴリズムであり,対応するニューラルネットワークが同様のハイレベルな計算処理を実行する場合,その近傍に2つの点が存在する。
DYNAMOは、事前訓練されたニューラルネットワークのコレクションを入力として、隠された状態のダイナミクスとコレクション内の任意のモデルの出力をエミュレートするメタモデルを出力する。
論文 参考訳(メタデータ) (2023-02-27T19:00:05Z) - Optimization-Informed Neural Networks [0.6853165736531939]
制約付き非線形最適化問題を解くために最適化インフォームドニューラルネットワーク(OINN)を提案する。
簡単に言うと、OINNはCNLPをニューラルネットワークトレーニング問題に変換する。
提案手法の有効性は古典的な問題の収集を通じて実証される。
論文 参考訳(メタデータ) (2022-10-05T09:28:55Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Neuron-based Pruning of Deep Neural Networks with Better Generalization
using Kronecker Factored Curvature Approximation [18.224344440110862]
提案アルゴリズムは、ヘッセンのスペクトル半径を探索することにより、圧縮されたモデルのパラメータを平らな解へ向ける。
以上の結果から, ニューロン圧縮における最先端の結果が向上することが示唆された。
この手法は、異なるニューラルネットワークモデル間で小さな精度で、非常に小さなネットワークを実現することができる。
論文 参考訳(メタデータ) (2021-11-16T15:55:59Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Certified Monotonic Neural Networks [15.537695725617576]
本稿では,混合整数線形計画問題の解法により,一般のピースワイド線形ニューラルネットワークの単調性を証明することを提案する。
我々のアプローチでは、重み空間に対する人間設計の制約を必要とせず、より正確な近似が得られる。
論文 参考訳(メタデータ) (2020-11-20T04:58:13Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。