論文の概要: Module-wise Training of Residual Networks via the Minimizing Movement
Scheme
- arxiv url: http://arxiv.org/abs/2210.00949v1
- Date: Mon, 3 Oct 2022 14:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:37:13.550432
- Title: Module-wise Training of Residual Networks via the Minimizing Movement
Scheme
- Title(参考訳): 移動最小化方式による残余ネットワークのモジュールワイドトレーニング
- Authors: Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick
Gallinari
- Abstract要約: 階層的あるいはモジュール的なニューラルネットワークのトレーニングは、制約付きおよびオンデバイス設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得た単純なモジュールワイド正規化を提案する。
正規化が加えられると,モジュールワイドネットワークの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 10.342408668490975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Greedy layer-wise or module-wise training of neural networks is compelling in
constrained and on-device settings, as it circumvents a number of problems of
end-to-end back-propagation. However, it suffers from a stagnation problem,
whereby early layers overfit and deeper layers stop increasing the test
accuracy after a certain depth. We propose to solve this issue by introducing a
simple module-wise regularization inspired by the minimizing movement scheme
for gradient flows in distribution space. The method, which we call TRGL for
Transport Regularized Greedy Learning, is particularly well-adapted to residual
networks. We study it theoretically, proving that it leads to greedy modules
that are regular and that successively solve the task. Experimentally, we show
improved accuracy of module-wise trained networks when our regularization is
added.
- Abstract(参考訳): 階層的あるいはモジュール的なニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、制約付きおよびデバイス上の設定において魅力的なものだ。
しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。
分散空間における勾配流の最小化運動スキームに着想を得た単純なモジュールワイズ正規化を導入することでこの問題を解決することを提案する。
TRGL(Transport Regularized Greedy Learning)と呼ばれるこの手法は,残余ネットワークに適応している。
理論的に研究し、それが正則でタスクを逐次解決する強欲な加群につながることを証明した。
実験では,正規化が加えられると,モジュールワイドネットワークの精度が向上することを示した。
関連論文リスト
- Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise
Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。
実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T08:02:33Z) - Module-wise Training of Neural Networks via the Minimizing Movement
Scheme [15.315147138002153]
階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。
本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
論文 参考訳(メタデータ) (2023-09-29T16:03:25Z) - Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。
本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。
各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文 参考訳(メタデータ) (2023-05-24T10:11:30Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - DeepSplit: Scalable Verification of Deep Neural Networks via Operator
Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。
解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T20:43:49Z) - Stochastic Block-ADMM for Training Deep Networks [16.369102155752824]
ディープニューラルネットワークをバッチおよびオンライン設定でトレーニングする手法として,Block-ADMMを提案する。
本手法はニューラルネットワークを任意の数のブロックに分割し,これらのブロックを補助変数で接続する。
我々は,提案手法の収束を証明し,教師あり・弱教師あり設定実験を通じてその能力の正当化を行う。
論文 参考訳(メタデータ) (2021-05-01T19:56:13Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。