論文の概要: Improving Neural Network Training in Low Dimensional Random Bases
- arxiv url: http://arxiv.org/abs/2011.04720v1
- Date: Mon, 9 Nov 2020 19:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 23:59:54.318612
- Title: Improving Neural Network Training in Low Dimensional Random Bases
- Title(参考訳): 低次元ランダムベースにおけるニューラルネットワークトレーニングの改善
- Authors: Frithjof Gressmann, Zach Eaton-Rosen, Carlo Luschi
- Abstract要約: トレーニング中にランダムなプロジェクションを固定し続けることは、最適化に有害であることを示す。
本稿では,各ステップにおけるランダム部分空間の再描画を提案する。
ネットワークの異なる部分に独立したプロジェクションを適用することで、ネットワーク次元が大きくなるにつれて、近似をより効率的にすることで、さらなる改善を実現する。
- 参考スコア(独自算出の注目度): 5.156484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) has proven to be remarkably effective in
optimizing deep neural networks that employ ever-larger numbers of parameters.
Yet, improving the efficiency of large-scale optimization remains a vital and
highly active area of research. Recent work has shown that deep neural networks
can be optimized in randomly-projected subspaces of much smaller dimensionality
than their native parameter space. While such training is promising for more
efficient and scalable optimization schemes, its practical application is
limited by inferior optimization performance. Here, we improve on recent random
subspace approaches as follows: Firstly, we show that keeping the random
projection fixed throughout training is detrimental to optimization. We propose
re-drawing the random subspace at each step, which yields significantly better
performance. We realize further improvements by applying independent
projections to different parts of the network, making the approximation more
efficient as network dimensionality grows. To implement these experiments, we
leverage hardware-accelerated pseudo-random number generation to construct the
random projections on-demand at every optimization step, allowing us to
distribute the computation of independent random directions across multiple
workers with shared random seeds. This yields significant reductions in memory
and is up to 10 times faster for the workloads in question.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は、常に大きなパラメータを使用するディープニューラルネットワークの最適化に極めて有効であることが証明されている。
しかし、大規模な最適化の効率性の向上は依然として重要かつ活発な研究領域である。
近年の研究では、ディープニューラルネットワークは、ネイティブパラメータ空間よりもはるかに小さな次元のランダムに投影された部分空間で最適化できることが示されている。
このようなトレーニングは、より効率的でスケーラブルな最適化スキームを約束する一方で、その実用的応用は、劣った最適化性能によって制限される。
ここでは、近年のランダム部分空間のアプローチを次のように改善する。 まず、トレーニング中にランダムなプロジェクションを固定し続けることが最適化に有害であることを示す。
本稿では,各ステップにおけるランダム部分空間の再描画を提案する。
ネットワークの異なる部分に独立な投影を適用することでさらなる改善を実現し、ネットワーク次元が大きくなるにつれて近似をより効率的にする。
これらの実験を実施するために、ハードウェアアクセラレーションによる擬似ランダム数生成を活用し、各最適化ステップでランダムな予測をオンデマンドに構築し、ランダムなシードを共有する複数の作業者間で独立なランダムな方向の計算を分散する。
これによりメモリが大幅に削減され、問題となるワークロードの最大10倍高速になる。
関連論文リスト
- Convergence and scaling of Boolean-weight optimization for hardware
reservoirs [0.0]
我々は、ランダムにリカレント接続されたニューラルネットワークの読み出し層を最適化するために、高効率なコーディネートDescentのスケーリング法則を解析的に導出した。
本結果は,概念実証実験で実施した大規模フォトニック貯水池の収束とスケーリングを完璧に再現するものである。
論文 参考訳(メタデータ) (2023-05-13T12:15:25Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs [0.0]
ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
本稿では,ベクトルのみに対するヘシアンの効果を必要とする新しい二階最適化手法を提案する。
提案手法を5つの代表的ニューラルネットワーク問題に対して2つの最先端技術と比較した。
論文 参考訳(メタデータ) (2022-08-03T12:38:23Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Delta-STN: Efficient Bilevel Optimization for Neural Networks using
Structured Response Jacobians [5.33024001730262]
自己チューニングネットワーク(STN)は,最近,内部目標の最適化を補正する能力によって,注目を集めている。
トレーニングを安定化する改良されたハイパーネットワークアーキテクチャであるDelta$-STNを提案する。
論文 参考訳(メタデータ) (2020-10-26T12:12:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Steepest Descent Neural Architecture Optimization: Escaping Local
Optimum with Signed Neural Splitting [60.97465664419395]
我々は、局所最適性問題に対処する分割降下フレームワークの顕著で驚くべき拡張を開発する。
分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除できる。
我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。
論文 参考訳(メタデータ) (2020-03-23T17:09:27Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。