論文の概要: Block-wise Training of Residual Networks via the Minimizing Movement
Scheme
- arxiv url: http://arxiv.org/abs/2210.00949v2
- Date: Tue, 6 Jun 2023 13:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:43:26.493926
- Title: Block-wise Training of Residual Networks via the Minimizing Movement
Scheme
- Title(参考訳): 最小化移動スキームによる残留ネットワークのブロック的学習
- Authors: Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick
Gallinari
- Abstract要約: 本研究では,分散空間における勾配流の最小化運動スキームに着想を得たレイヤワイドトレーニング手法を開発した。
この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。
これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
- 参考スコア(独自算出の注目度): 10.342408668490975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end backpropagation has a few shortcomings: it requires loading the
entire model during training, which can be impossible in constrained settings,
and suffers from three locking problems (forward locking, update locking and
backward locking), which prohibit training the layers in parallel. Solving
layer-wise optimization problems can address these problems and has been used
in on-device training of neural networks. We develop a layer-wise training
method, particularly welladapted to ResNets, inspired by the minimizing
movement scheme for gradient flows in distribution space. The method amounts to
a kinetic energy regularization of each block that makes the blocks optimal
transport maps and endows them with regularity. It works by alleviating the
stagnation problem observed in layer-wise training, whereby greedily-trained
early layers overfit and deeper layers stop increasing test accuracy after a
certain depth. We show on classification tasks that the test accuracy of
block-wise trained ResNets is improved when using our method, whether the
blocks are trained sequentially or in parallel.
- Abstract(参考訳): エンドツーエンドのバックプロパゲーションにはいくつかの欠点がある。トレーニング中にモデル全体をロードする必要があるが、制約された設定では不可能であり、3つのロック問題(前方ロック、更新ロック、後方ロック)に苦しむため、並行してレイヤのトレーニングが禁止される。
階層最適化問題の解決はこれらの問題に対処し、ニューラルネットワークのデバイス上でのトレーニングに使用されている。
本研究では,分散空間における勾配流の最小化運動スキームに着想を得て,ResNetsに適応した階層的学習手法を開発した。
この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。
これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
本手法では,ブロックを逐次トレーニングするか並列トレーニングするかに関わらず,ブロック単位でトレーニングした再ネットのテスト精度が向上することを示す。
関連論文リスト
- Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise
Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。
実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T08:02:33Z) - Module-wise Training of Neural Networks via the Minimizing Movement
Scheme [15.315147138002153]
階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。
本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
論文 参考訳(メタデータ) (2023-09-29T16:03:25Z) - Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。
本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。
各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文 参考訳(メタデータ) (2023-05-24T10:11:30Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - DeepSplit: Scalable Verification of Deep Neural Networks via Operator
Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。
解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T20:43:49Z) - Stochastic Block-ADMM for Training Deep Networks [16.369102155752824]
ディープニューラルネットワークをバッチおよびオンライン設定でトレーニングする手法として,Block-ADMMを提案する。
本手法はニューラルネットワークを任意の数のブロックに分割し,これらのブロックを補助変数で接続する。
我々は,提案手法の収束を証明し,教師あり・弱教師あり設定実験を通じてその能力の正当化を行う。
論文 参考訳(メタデータ) (2021-05-01T19:56:13Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。