論文の概要: MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network
- arxiv url: http://arxiv.org/abs/2406.16633v5
- Date: Fri, 08 Nov 2024 07:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:21.008502
- Title: MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network
- Title(参考訳): MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ
- Authors: Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Junhao Su, Jiabin Liu, Changpeng Cai,
- Abstract要約: MLAAN(Multilaminar Leap Augmented Auxiliary Network)を提案する。
MLAANは、独立およびカスケードされた補助ネットワークを通じて、ローカルおよびグローバル両方の特徴をキャプチャする。
さらに,ローカルモジュール間の情報交換を容易にするために,指数移動平均 (EMA) 法を用いた拡張補助ネットワーク LAM を設計する。
CIFAR-10, STL-10, SVHN, ImageNetデータセットを用いた実験により, MLAANが既存のローカル学習フレームワークにシームレスに統合可能であることを示す。
- 参考スコア(独自算出の注目度): 4.396837128416218
- License:
- Abstract: Deep neural networks (DNNs) typically employ an end-to-end (E2E) training paradigm which presents several challenges, including high GPU memory consumption, inefficiency, and difficulties in model parallelization during training. Recent research has sought to address these issues, with one promising approach being local learning. This method involves partitioning the backbone network into gradient-isolated modules and manually designing auxiliary networks to train these local modules. Existing methods often neglect the interaction of information between local modules, leading to myopic issues and a performance gap compared to E2E training. To address these limitations, we propose the Multilaminar Leap Augmented Auxiliary Network (MLAAN). Specifically, MLAAN comprises Multilaminar Local Modules (MLM) and Leap Augmented Modules (LAM). MLM captures both local and global features through independent and cascaded auxiliary networks, alleviating performance issues caused by insufficient global features. However, overly simplistic auxiliary networks can impede MLM's ability to capture global information. To address this, we further design LAM, an enhanced auxiliary network that uses the Exponential Moving Average (EMA) method to facilitate information exchange between local modules, thereby mitigating the shortsightedness resulting from inadequate interaction. The synergy between MLM and LAM has demonstrated excellent performance. Our experiments on the CIFAR-10, STL-10, SVHN, and ImageNet datasets show that MLAAN can be seamlessly integrated into existing local learning frameworks, significantly enhancing their performance and even surpassing end-to-end (E2E) training methods, while also reducing GPU memory consumption.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は通常、エンドツーエンド(E2E)のトレーニングパラダイムを採用しており、高いGPUメモリ消費、非効率性、トレーニング中のモデルの並列化の難しさなど、いくつかの課題を提示している。
最近の研究はこれらの問題に対処しようとしており、ある有望なアプローチは局所的な学習である。
この方法は、バックボーンネットワークを勾配分離モジュールに分割し、これらのローカルモジュールをトレーニングするための補助ネットワークを手動で設計することを含む。
既存の手法では、ローカルモジュール間の情報交換を無視することが多く、筋電図上の問題や、E2Eトレーニングと比較してパフォーマンスの差が生じる。
これらの制約に対処するため,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を提案する。
具体的には、MLAAN は Multilaminar Local Modules (MLM) と Leap Augmented Modules (LAM) から構成される。
MLMは、独立およびカスケードされた補助ネットワークを通じて、ローカルおよびグローバル両方の機能をキャプチャし、グローバル機能不足によるパフォーマンス上の問題を緩和する。
しかし、過度に単純化された補助ネットワークは、MLMがグローバル情報をキャプチャする能力を阻害する可能性がある。
そこで我々は,ローカルモジュール間の情報交換を容易にするために,指数移動平均 (EMA) 法を用いた拡張補助ネットワーク LAM をさらに設計する。
MLMとLAMの相乗効果は優れた性能を示した。
CIFAR-10, STL-10, SVHN, ImageNetデータセットを用いた実験により, MLAANは既存のローカル学習フレームワークにシームレスに統合され, 性能を大幅に向上し, エンド・ツー・エンド(E2E)トレーニング手法を超越し,GPUメモリ消費の削減も図っている。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion [7.9514535887836795]
本稿では,階層的局所教師付き学習とパッチレベルの特徴を補助的ネットワーク上で実現する新しいモデルを提案する。
我々は, CIFAR-10, STL-10, SVHN, ImageNetのデータセットについて実験を行い, 提案したHPFFが従来の手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-07-08T06:05:19Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
無線ネットワークへの展開は、プライバシとセキュリティ保護機構の欠如など、依然として課題に直面している。
通信オーバーヘッドの少ない2つのパーソナライズされた無線フェデレーションファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - Local Learning with Neuron Groups [15.578925277062657]
局所学習はモデル並列性に対するアプローチであり、標準のエンドツーエンドの学習設定を取り除く。
本研究では,局所学習をレイヤやモジュールをサブコンポーネントに分割する方法について検討する。
論文 参考訳(メタデータ) (2023-01-18T16:25:10Z) - Locally Supervised Learning with Periodic Global Guidance [19.41730292017383]
ニューラルネットワークの局所的ロスに基づくトレーニングにおいて,グローバルな目的を反復的に再現するために,周期的ガイド付き局所学習(PGL)を提案する。
本稿では,メモリフットプリントが低い場合に,簡単な周期的ガイダンス方式によって大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-01T13:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。