論文の概要: MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network
- arxiv url: http://arxiv.org/abs/2406.16633v1
- Date: Mon, 24 Jun 2024 13:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:44:42.801614
- Title: MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network
- Title(参考訳): MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ
- Authors: Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Jiabin Liu, Changpeng Cai,
- Abstract要約: ローカル学習は、E2Eの代替として約束を守る新しいインタラクティブな訓練方法と考えられている。
従来の局所学習手法は, 局所的モジュール間相互作用が不十分なため, 高精度なモデル精度を実現するには不十分である。
マルチラミナリープ拡張補助ネットワーク(MLAAN)を用いたScaling Supervised Local Learningと呼ばれる新しいモデルを導入する。
- 参考スコア(独自算出の注目度): 4.586209809964039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) training approaches are commonly plagued by high memory consumption, reduced efficiency in training, challenges in model parallelization, and suboptimal biocompatibility. Local learning is considered a novel interactive training method that holds promise as an alternative to E2E. Nonetheless, conventional local learning methods fall short in achieving high model accuracy due to inadequate local inter-module interactions. In this paper, we introduce a new model known as the Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network (MLAAN). MLAAN features an innovative supervised local learning approach coupled with a robust reinforcement module. This dual-component design enables the MLAAN to integrate smoothly with established local learning techniques, thereby enhancing the efficacy of the foundational methods. The method simultaneously acquires the local and global features of the model separately by constructing an independent auxiliary network and a cascade auxiliary network on the one hand and incorporates a leap augmented module, which serves to counteract the reduced learning capacity often associated with weaker supervision. This architecture not only augments the exchange of information amongst the local modules but also effectively mitigates the model's tendency toward myopia. The experimental evaluations conducted on four benchmark datasets, CIFAR-10, STL-10, SVHN, and ImageNet, demonstrate that the integration of MLAAN with existing supervised local learning methods significantly enhances the original methodologies. Of particular note, MLAAN enables local learning methods to comprehensively outperform end-to-end training approaches in terms of optimal performance while saving GPU memory.
- Abstract(参考訳): エンド・ツー・エンド(E2E)のトレーニングアプローチは、一般的に、高メモリ消費、トレーニングの効率の低下、モデルの並列化の課題、および準最適生体適合性に悩まされている。
ローカル学習は、E2Eの代替として約束を守る新しいインタラクティブな訓練方法と考えられている。
それにもかかわらず、従来の局所学習手法は、不適切な局所的なモジュール間相互作用のために高いモデル精度を達成するには不十分である。
本稿では,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を用いたScaling Supervised Local Learningと呼ばれる新しいモデルを提案する。
MLAANは、堅牢な強化モジュールと組み合わせた、革新的な教師付きローカル学習アプローチを備えている。
この二重成分設計により、MLAANは確立した局所学習技術とスムーズに統合でき、基礎的手法の有効性を高めることができる。
独立補助ネットワークとカスケード補助ネットワークを一方に構築することにより、モデルの局所的・大域的特徴を別々に獲得し、より弱い監督に伴う学習能力の低下に対処する跳躍増進モジュールを具備する。
このアーキテクチャは、局所的なモジュール間の情報の交換を増大させるだけでなく、ミオピアに対するモデルの傾向を効果的に緩和する。
CIFAR-10, STL-10, SVHN, ImageNet の4つのベンチマークデータセットで行った実験により, MLAAN と既存の教師付き局所学習手法の統合が元の方法論を大幅に強化することを示した。
特に、MLAANは、GPUメモリを節約しながら最適なパフォーマンスでエンドツーエンドのトレーニングアプローチを総合的に上回るローカル学習方法を提供する。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion [7.9514535887836795]
本稿では,階層的局所教師付き学習とパッチレベルの特徴を補助的ネットワーク上で実現する新しいモデルを提案する。
我々は, CIFAR-10, STL-10, SVHN, ImageNetのデータセットについて実験を行い, 提案したHPFFが従来の手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-07-08T06:05:19Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
無線ネットワークへの展開は、プライバシとセキュリティ保護機構の欠如など、依然として課題に直面している。
通信オーバーヘッドの少ない2つのパーソナライズされた無線フェデレーションファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - Local Learning with Neuron Groups [15.578925277062657]
局所学習はモデル並列性に対するアプローチであり、標準のエンドツーエンドの学習設定を取り除く。
本研究では,局所学習をレイヤやモジュールをサブコンポーネントに分割する方法について検討する。
論文 参考訳(メタデータ) (2023-01-18T16:25:10Z) - Locally Supervised Learning with Periodic Global Guidance [19.41730292017383]
ニューラルネットワークの局所的ロスに基づくトレーニングにおいて,グローバルな目的を反復的に再現するために,周期的ガイド付き局所学習(PGL)を提案する。
本稿では,メモリフットプリントが低い場合に,簡単な周期的ガイダンス方式によって大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-01T13:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。