論文の概要: Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs
- arxiv url: http://arxiv.org/abs/2208.02017v1
- Date: Wed, 3 Aug 2022 12:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:26:47.516445
- Title: Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs
- Title(参考訳): 複数のGPU上のニュートン共役勾配法によるニューラルネット
- Authors: Severin Reiz, Tobias Neckel, Hans-Joachim Bungartz
- Abstract要約: ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
本稿では,ベクトルのみに対するヘシアンの効果を必要とする新しい二階最適化手法を提案する。
提案手法を5つの代表的ニューラルネットワーク問題に対して2つの最先端技術と比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training deep neural networks consumes increasing computational resource
shares in many compute centers. Often, a brute force approach to obtain
hyperparameter values is employed. Our goal is (1) to enhance this by enabling
second-order optimization methods with fewer hyperparameters for large-scale
neural networks and (2) to perform a survey of the performance optimizers for
specific tasks to suggest users the best one for their problem. We introduce a
novel second-order optimization method that requires the effect of the Hessian
on a vector only and avoids the huge cost of explicitly setting up the Hessian
for large-scale networks.
We compare the proposed second-order method with two state-of-the-art
optimizers on five representative neural network problems, including regression
and very deep networks from computer vision or variational autoencoders. For
the largest setup, we efficiently parallelized the optimizers with Horovod and
applied it to a 8 GPU NVIDIA P100 (DGX-1) machine.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
しばしば、ハイパーパラメータ値を得るためのブルートフォースアプローチが用いられる。
本研究の目的は,(1)大規模ニューラルネットワークに対するハイパーパラメータの少ない2次最適化手法の実現と,(2)特定のタスクに対するパフォーマンスオプティマイザの調査を行い,ユーザを問題に最適なものにすることにある。
本稿では,ベクトルに対するHessianの影響を考慮し,大規模ネットワークに対してHessianを明示的に設定するコストを回避する2次最適化手法を提案する。
提案手法は,コンピュータビジョンや変分オートエンコーダからのレグレッションや深層ネットワークなど,5つの代表的なニューラルネットワーク問題に対する2つの最先端オプティマイザと比較した。
最大のセットアップでは、最適化をHorovodで効率的に並列化し、8つのGPU NVIDIA P100 (DGX-1) マシンに適用しました。
関連論文リスト
- Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - Convergence and scaling of Boolean-weight optimization for hardware
reservoirs [0.0]
我々は、ランダムにリカレント接続されたニューラルネットワークの読み出し層を最適化するために、高効率なコーディネートDescentのスケーリング法則を解析的に導出した。
本結果は,概念実証実験で実施した大規模フォトニック貯水池の収束とスケーリングを完璧に再現するものである。
論文 参考訳(メタデータ) (2023-05-13T12:15:25Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Acceleration techniques for optimization over trained neural network
ensembles [1.0323063834827415]
本研究では, 線形単位活性化の補正されたフィードフォワードニューラルネットワークを用いて, 目的関数をモデル化する最適化問題について検討する。
本稿では,1つのニューラルネットワークを最適化するために,既存のBig-M$の定式化をベースとした混合整数線形プログラムを提案する。
論文 参考訳(メタデータ) (2021-12-13T20:50:54Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Hyperparameter Optimization in Binary Communication Networks for
Neuromorphic Deployment [4.280642750854163]
ニューロモルフィック展開のためのニューラルネットワークのトレーニングは簡単ではない。
本稿では,ニューロモルフィックハードウェアに展開可能なバイナリ通信ネットワークをトレーニングするためのアルゴリズムのハイパーパラメータを最適化するためのベイズ的手法を提案する。
このアルゴリズムでは,データセット毎のハイパーパラメータを最適化することにより,データセット毎の前の最先端よりも精度が向上できることが示されている。
論文 参考訳(メタデータ) (2020-04-21T01:15:45Z) - Steepest Descent Neural Architecture Optimization: Escaping Local
Optimum with Signed Neural Splitting [60.97465664419395]
我々は、局所最適性問題に対処する分割降下フレームワークの顕著で驚くべき拡張を開発する。
分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除できる。
我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。
論文 参考訳(メタデータ) (2020-03-23T17:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。