Fugu-MT 論文翻訳(概要): Block-wise Training of Residual Networks via the Minimizing Movement Scheme

論文の概要: Block-wise Training of Residual Networks via the Minimizing Movement Scheme

arxiv url: http://arxiv.org/abs/2210.00949v2
Date: Tue, 6 Jun 2023 13:48:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 21:43:26.493926
Title: Block-wise Training of Residual Networks via the Minimizing Movement Scheme
Title（参考訳）: 最小化移動スキームによる残留ネットワークのブロック的学習
Authors: Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari
Abstract要約: 本研究では,分散空間における勾配流の最小化運動スキームに着想を得たレイヤワイドトレーニング手法を開発した。この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
参考スコア（独自算出の注目度）: 10.342408668490975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end backpropagation has a few shortcomings: it requires loading the entire model during training, which can be impossible in constrained settings, and suffers from three locking problems (forward locking, update locking and backward locking), which prohibit training the layers in parallel. Solving layer-wise optimization problems can address these problems and has been used in on-device training of neural networks. We develop a layer-wise training method, particularly welladapted to ResNets, inspired by the minimizing movement scheme for gradient flows in distribution space. The method amounts to a kinetic energy regularization of each block that makes the blocks optimal transport maps and endows them with regularity. It works by alleviating the stagnation problem observed in layer-wise training, whereby greedily-trained early layers overfit and deeper layers stop increasing test accuracy after a certain depth. We show on classification tasks that the test accuracy of block-wise trained ResNets is improved when using our method, whether the blocks are trained sequentially or in parallel.
Abstract（参考訳）: エンドツーエンドのバックプロパゲーションにはいくつかの欠点がある。トレーニング中にモデル全体をロードする必要があるが、制約された設定では不可能であり、3つのロック問題(前方ロック、更新ロック、後方ロック)に苦しむため、並行してレイヤのトレーニングが禁止される。階層最適化問題の解決はこれらの問題に対処し、ニューラルネットワークのデバイス上でのトレーニングに使用されている。本研究では,分散空間における勾配流の最小化運動スキームに着想を得て,ResNetsに適応した階層的学習手法を開発した。この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。本手法では,ブロックを逐次トレーニングするか並列トレーニングするかに関わらず,ブロック単位でトレーニングした再ネットのテスト精度が向上することを示す。

関連論文リスト

Scalable Forward-Forward Algorithm [1.9580473532948401]
本稿では,各レイヤを個別にトレーニングすることで,バックプロパゲーションの必要性を解消する,スケーラブルなフォワードフォワード(FF)アルゴリズムを提案する。 FFをMobileNetV3やResNet18のようなモダンな畳み込みアーキテクチャに拡張し、畳み込みレイヤの損失を計算する新しい方法を導入しました。
論文参考訳（メタデータ） (2025-01-06T17:49:00Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文参考訳（メタデータ） (2023-12-20T08:02:33Z)
Module-wise Training of Neural Networks via the Minimizing Movement Scheme [15.315147138002153]
階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
論文参考訳（メタデータ） (2023-09-29T16:03:25Z)
Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文参考訳（メタデータ） (2023-05-24T10:11:30Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Distribution Mismatch Correction for Improved Robustness in Deep Neural Networks [86.42889611784855]
正規化法はノイズや入力の腐敗に関して脆弱性を増大させる本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文参考訳（メタデータ） (2021-10-05T11:36:25Z)
DeepSplit: Scalable Verification of Deep Neural Networks via Operator Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-16T20:43:49Z)
Stochastic Block-ADMM for Training Deep Networks [16.369102155752824]
ディープニューラルネットワークをバッチおよびオンライン設定でトレーニングする手法として,Block-ADMMを提案する。本手法はニューラルネットワークを任意の数のブロックに分割し,これらのブロックを補助変数で接続する。我々は,提案手法の収束を証明し,教師あり・弱教師あり設定実験を通じてその能力の正当化を行う。
論文参考訳（メタデータ） (2021-05-01T19:56:13Z)
LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文参考訳（メタデータ） (2020-08-04T05:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。