Fugu-MT 論文翻訳(概要): Exploiting Spline Models for the Training of Fully Connected Layers in Neural Network

論文の概要: Exploiting Spline Models for the Training of Fully Connected Layers in Neural Network

arxiv url: http://arxiv.org/abs/2102.06554v1
Date: Fri, 12 Feb 2021 14:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-15 13:22:35.285314
Title: Exploiting Spline Models for the Training of Fully Connected Layers in Neural Network
Title（参考訳）: ニューラルネットワークにおけるスプラインモデルを活用した完全連結層の学習
Authors: Kanya Mo (1), Shen Zheng (1), Xiwei Wang (1), Jinghua Wang (2), Klaus-Dieter Schewe (1) ((1) Zhejiang University, UIUC Institute, (2) University of Illinois at Urbana-Champaign)
Abstract要約: 人工ニューラルネットワーク(ANN)の最も基本的なモジュールの1つである完全連結(FC)層は、しばしば訓練が困難で非効率であると考えられている。 fc層を訓練することの難しさを緩和するスプラインベースアプローチを提案する。提案手法は計算コストを低減し,fc層の収束を加速し,モデルの解釈可能性を大幅に向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The fully connected (FC) layer, one of the most fundamental modules in artificial neural networks (ANN), is often considered difficult and inefficient to train due to issues including the risk of overfitting caused by its large amount of parameters. Based on previous work studying ANN from linear spline perspectives, we propose a spline-based approach that eases the difficulty of training FC layers. Given some dataset, we first obtain a continuous piece-wise linear (CPWL) fit through spline methods such as multivariate adaptive regression spline (MARS). Next, we construct an ANN model from the linear spline model and continue to train the ANN model on the dataset using gradient descent optimization algorithms. Our experimental results and theoretical analysis show that our approach reduces the computational cost, accelerates the convergence of FC layers, and significantly increases the interpretability of the resulting model (FC layers) compared with standard ANN training with random parameter initialization followed by gradient descent optimizations.
Abstract（参考訳）: 完全連結(fc)層は、ニューラルネットワーク(ann)における最も基本的なモジュールの1つであり、パラメータの多さによる過剰フィッティングのリスクなどの問題から、トレーニングが困難かつ非効率であると考えられている。線形スプラインの観点から ann を学習する以前の研究に基づいて,fc 層のトレーニングの困難さを緩和するスプラインベースアプローチを提案する。いくつかのデータセットでは、まず多変量適応回帰スプライン(MARS)のようなスプライン法を通じて連続的なピースワイズ線形(CPWL)を得る。次に、線形スプラインモデルからANNモデルを構築し、勾配降下最適化アルゴリズムを使用してデータセット上でANNモデルを訓練し続けます。実験結果と理論的解析により,本手法は計算コストを削減し,FC層の収束を加速し,得られたモデル(FC層)の解釈性を大幅に向上させることが示された。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Reimagining Linear Probing: Kolmogorov-Arnold Networks in Transfer Learning [18.69601183838834]
Kolmogorov-Arnold Networks (KAN) は、伝達学習における従来の線形探索手法の拡張である。 Kanは、従来の線形探索よりも一貫して優れており、精度と一般化の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-09-12T05:36:40Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。本稿では,この問題を緩和するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-08-23T11:48:35Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文参考訳（メタデータ） (2022-11-13T09:51:16Z)
An alternative approach to train neural networks using monotone variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文参考訳（メタデータ） (2022-02-17T19:24:20Z)
A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。その結果,提案手法は勾配法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-10-06T11:12:23Z)
An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文参考訳（メタデータ） (2020-06-19T22:05:19Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文参考訳（メタデータ） (2020-02-25T11:40:27Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。