論文の概要: Momentum Auxiliary Network for Supervised Local Learning
- arxiv url: http://arxiv.org/abs/2407.05623v3
- Date: Thu, 25 Jul 2024 01:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:37:36.632501
- Title: Momentum Auxiliary Network for Supervised Local Learning
- Title(参考訳): 教師付きローカルラーニングのためのモーメント補助ネットワーク
- Authors: Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si,
- Abstract要約: 改良されたローカル学習セグメントは、独立した補助ネットワークによって更新された複数のローカルブロックにネットワークを分割する。
動的相互作用機構を確立するためのMAN(Momentum Auxiliary Network)を提案する。
エンドツーエンドのトレーニングに比べて,ImageNetデータセットではGPUメモリ使用率を45%以上削減できる。
- 参考スコア(独自算出の注目度): 7.5717621206854275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
- Abstract(参考訳): ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。
ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。
しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。
この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。
MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。
EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。
それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。
これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。
我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。
特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。
そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。
私たちのコードは、https://github.com/JunhaoSu0/MAN.comで利用可能です。
関連論文リスト
- Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文 参考訳(メタデータ) (2024-09-11T02:44:28Z) - HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion [7.9514535887836795]
本稿では,階層的局所教師付き学習とパッチレベルの特徴を補助的ネットワーク上で実現する新しいモデルを提案する。
我々は, CIFAR-10, STL-10, SVHN, ImageNetのデータセットについて実験を行い, 提案したHPFFが従来の手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-07-08T06:05:19Z) - Scaling Supervised Local Learning with Augmented Auxiliary Networks [29.79621064772869]
本稿では,深層ニューラルネットワークのためのAugLocalと呼ばれる局所学習手法を提案する。
AugLocalは、BP学習ネットワークと同等の精度で、数十のローカルレイヤに効果的にスケールアップできることを示す。
提案したAugLocalメソッドは、リソース制約のあるプラットフォーム上で、高性能なディープニューラルネットワークをトレーニングする多くの機会を開放する。
論文 参考訳(メタデータ) (2024-02-27T08:50:45Z) - Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise
Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。
実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T08:02:33Z) - CMFDFormer: Transformer-based Copy-Move Forgery Detection with Continual
Learning [52.72888626663642]
コピーモーブ偽造検出は、疑わしい偽画像中の重複領域を検出することを目的としている。
深層学習に基づく複写偽造検出手法が最上位にある。
CMFDFormer という名称の Transformer-style copy-move forgery ネットワークを提案する。
また、CMFDFormerが新しいタスクを処理できるように、新しいPCSD連続学習フレームワークを提供する。
論文 参考訳(メタデータ) (2023-11-22T09:27:46Z) - Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。
本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。
各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文 参考訳(メタデータ) (2023-05-24T10:11:30Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。