論文の概要: Module-wise Training of Neural Networks via the Minimizing Movement
Scheme
- arxiv url: http://arxiv.org/abs/2309.17357v3
- Date: Thu, 5 Oct 2023 14:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 11:13:41.659250
- Title: Module-wise Training of Neural Networks via the Minimizing Movement
Scheme
- Title(参考訳): 移動最小化方式によるニューラルネットワークのモジュールワイドトレーニング
- Authors: Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick
Gallinari
- Abstract要約: 階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。
本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
- 参考スコア(独自算出の注目度): 15.315147138002153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Greedy layer-wise or module-wise training of neural networks is compelling in
constrained and on-device settings where memory is limited, as it circumvents a
number of problems of end-to-end back-propagation. However, it suffers from a
stagnation problem, whereby early layers overfit and deeper layers stop
increasing the test accuracy after a certain depth. We propose to solve this
issue by introducing a module-wise regularization inspired by the minimizing
movement scheme for gradient flows in distribution space. We call the method
TRGL for Transport Regularized Greedy Learning and study it theoretically,
proving that it leads to greedy modules that are regular and that progressively
solve the task. Experimentally, we show improved accuracy of module-wise
training of various architectures such as ResNets, Transformers and VGG, when
our regularization is added, superior to that of other module-wise training
methods and often to end-to-end training, with as much as 60% less memory
usage.
- Abstract(参考訳): 階層的、あるいはモジュール的ニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、メモリが制限された制約付きデバイス上での設定において魅力的なものだ。
しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。
分散空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を導入することでこの問題を解決することを提案する。
本手法をTRGL(Transport Regularized Greedy Learning)と呼び,それを理論的に研究し,規則的かつ漸進的に課題を解決しているグリージーモジュールに繋がることを示す。
実験により,resnet,transformer,vggなどの各種アーキテクチャのモジュール単位でのトレーニングの精度が向上したことを示す。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation [70.43845294145714]
グローバルバックプロパゲーション(BP)に対するニューラルネットワークトレーニングの信頼性の回復が、注目すべき研究トピックとして浮上している。
本稿では,隣接モジュール間の勾配調整を連続的に調整する局所的学習戦略を提案する。
提案手法はローカルBPとBPフリー設定の両方に統合できる。
論文 参考訳(メタデータ) (2024-06-07T19:10:31Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Go beyond End-to-End Training: Boosting Greedy Local Learning with
Context Supply [0.12187048691454236]
ゆるやかなローカル学習は、ネットワークを勾配に分離したモジュールに分割し、局所的な予備的損失に基づいて監督的に訓練する。
勾配分離モジュールのセグメンテーション数が増加するにつれて、局所学習方式の性能は大幅に低下する。
本稿では,情報損失を補うために,分離モジュール間のコンテキスト供給を組み込んだContSupスキームを提案する。
論文 参考訳(メタデータ) (2023-12-12T10:25:31Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Block-wise Training of Residual Networks via the Minimizing Movement
Scheme [10.342408668490975]
本研究では,分散空間における勾配流の最小化運動スキームに着想を得たレイヤワイドトレーニング手法を開発した。
この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。
これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
論文 参考訳(メタデータ) (2022-10-03T14:03:56Z) - BackLink: Supervised Local Training with Backward Links [2.104758015212034]
この研究は、モジュール間の後方依存性を導入し、モジュール間でエラーを流すことが可能な、新しいローカルトレーニングアルゴリズムであるBackLinkを提案する。
提案手法は,ResNet110のメモリコストを79%削減し,ResNet110のシミュレーションランタイムを52%削減する。
論文 参考訳(メタデータ) (2022-05-14T21:49:47Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。