論文の概要: On Training Implicit Models
- arxiv url: http://arxiv.org/abs/2111.05177v1
- Date: Tue, 9 Nov 2021 14:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 18:19:15.037534
- Title: On Training Implicit Models
- Title(参考訳): インシシデントモデルの訓練について
- Authors: Zhengyang Geng and Xin-Yu Zhang and Shaojie Bai and Yisen Wang and
Zhouchen Lin
- Abstract要約: ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
- 参考スコア(独自算出の注目度): 75.20173180996501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on training implicit models of infinite layers.
Specifically, previous works employ implicit differentiation and solve the
exact gradient for the backward propagation. However, is it necessary to
compute such an exact but expensive gradient for training? In this work, we
propose a novel gradient estimate for implicit models, named phantom gradient,
that 1) forgoes the costly computation of the exact gradient; and 2) provides
an update direction empirically preferable to the implicit model training. We
theoretically analyze the condition under which an ascent direction of the loss
landscape could be found, and provide two specific instantiations of the
phantom gradient based on the damped unrolling and Neumann series. Experiments
on large-scale tasks demonstrate that these lightweight phantom gradients
significantly accelerate the backward passes in training implicit models by
roughly 1.7 times, and even boost the performance over approaches based on the
exact gradient on ImageNet.
- Abstract(参考訳): 本稿では無限層の暗黙的モデルの学習に着目する。
特に、以前の研究は暗黙の微分を採用し、後方伝播の正確な勾配を解いた。
しかし、トレーニングにこれほど正確だが高価な勾配を計算する必要があるのか?
本研究では,ファントム勾配と呼ばれる暗黙的モデルに対する新しい勾配推定法を提案する。
1) 正確な勾配の計算に費用がかかること,及び
2) 暗黙的なモデルトレーニングに実証的に好ましい更新方向を提供する。
我々は、損失景観の上昇方向が発見できる条件を理論的に解析し、減衰アンローリングとノイマン級数に基づくファントム勾配の2つの特異なインスタンス化を提供する。
大規模タスクの実験では、これらの軽量ファントム勾配は暗黙のモデルのトレーニングにおいて、約1.7倍の後方通過を著しく加速し、ImageNetの正確な勾配に基づいてアプローチよりもパフォーマンスを向上させる。
関連論文リスト
- One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Gradients without Backpropagation [16.928279365071916]
本稿では、フォワードモードによって正確に効率的に計算できる方向微分のみに基づいて勾配を計算する方法を提案する。
様々な問題において前方降下勾配を示し、計算の大幅な削減を示し、場合によっては最大2倍の速さで訓練を可能にする。
論文 参考訳(メタデータ) (2022-02-17T11:07:55Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Neural gradients are near-lognormal: improved quantized and sparse
training [35.28451407313548]
神経勾配の分布は概ね対数正規である。
神経勾配の計算と記憶の負担を軽減するための2つの閉形式解析法を提案する。
我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)精度の低い場合において,最大85%の勾配間隔を達成した最初の論文である。
論文 参考訳(メタデータ) (2020-06-15T07:00:15Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。