論文の概要: m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers
- arxiv url: http://arxiv.org/abs/2402.16918v1
- Date: Mon, 26 Feb 2024 04:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:01:19.709907
- Title: m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers
- Title(参考訳): m2mKD:モジュールからモジュールへの知識蒸留
- Authors: Ka Man Lo, Yiming Liang, Wenyu Du, Yuantao Fan, Zili Wang, Wenhao
Huang, Lei Ma, Jie Fu
- Abstract要約: 本稿では,モジュール間の知識伝達のための一般モジュール間知識蒸留法(m2mKD)を提案する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つの異なるモジュール型ニューラルネットワークに対するm2mKDの有効性を評価する。
- 参考スコア(独自算出の注目度): 28.928438642661934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modular neural architectures are gaining increasing attention due to their
powerful capability for generalization and sample-efficient adaptation to new
domains. However, training modular models, particularly in the early stages,
poses challenges due to the optimization difficulties arising from their
intrinsic sparse connectivity. Leveraging the knowledge from monolithic models,
using techniques such as knowledge distillation, is likely to facilitate the
training of modular models and enable them to integrate knowledge from multiple
models pretrained on diverse sources. Nevertheless, conventional knowledge
distillation approaches are not tailored to modular models and can fail when
directly applied due to the unique architectures and the enormous number of
parameters involved. Motivated by these challenges, we propose a general
module-to-module knowledge distillation (m2mKD) method for transferring
knowledge between modules. Our approach involves teacher modules split from a
pretrained monolithic model, and student modules of a modular model. m2mKD
separately combines these modules with a shared meta model and encourages the
student module to mimic the behaviour of the teacher module. We evaluate the
effectiveness of m2mKD on two distinct modular neural architectures: Neural
Attentive Circuits (NACs) and Vision Mixture-of-Experts (V-MoE). By applying
m2mKD to NACs, we achieve significant improvements in IID accuracy on
Tiny-ImageNet (up to 5.6%) and OOD robustness on Tiny-ImageNet-R (up to 4.2%).
On average, we observe a 1% gain in both ImageNet and ImageNet-R. The
V-MoE-Base model trained using m2mKD also achieves 3.5% higher accuracy than
end-to-end training on ImageNet. The experimental results demonstrate that our
method offers a promising solution for connecting modular networks with
pretrained monolithic models. Code is available at
https://github.com/kamanphoebe/m2mKD.
- Abstract(参考訳): モジュラニューラルアーキテクチャは、一般化と新しいドメインへのサンプル効率適応の強力な能力により、注目を集めている。
しかしながら、モジュールモデルのトレーニング、特に初期の段階では、本質的な疎結合から生じる最適化の困難さが問題となる。
知識蒸留のような技術を用いてモノリシックなモデルから知識を活用することは、モジュラーモデルの訓練を促進し、様々なソースで事前訓練された複数のモデルから知識を統合することを可能にする。
しかしながら、従来の知識蒸留手法はモジュラーモデルに適合せず、ユニークなアーキテクチャと膨大な数のパラメータによって直接適用されると失敗する可能性がある。
これらの課題に乗じて,モジュール間の知識伝達のための一般モジュール間知識蒸留法(m2mKD)を提案する。
我々のアプローチでは、教師モジュールが事前訓練されたモノリシックモデルとモジュールモデルの学生モジュールから分離する。
m2mKDはこれらのモジュールと共有メタモデルを別々に組み合わせ、教師モジュールの振る舞いを真似るように学生モジュールを奨励する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つの異なるモジュール型ニューラルネットワークに対するm2mKDの有効性を評価する。
NACにm2mKDを適用することで、Tiny-ImageNetのID精度(最大5.6%)とTiny-ImageNet-RのOOD堅牢性(最大4.2%)が大幅に向上した。
平均して、ImageNet と ImageNet-R のいずれにおいても、1% の増加が見受けられる。
m2mKDでトレーニングされたV-MoE-Baseモデルは、ImageNetのエンドツーエンドトレーニングよりも3.5%高い精度を実現している。
本手法は,事前学習されたモノリシックモデルとモジュールネットワークを接続するための有望なソリューションであることを示す。
コードはhttps://github.com/kamanphoebe/m2mKDで入手できる。
関連論文リスト
- Improving DNN Modularization via Activation-Driven Training [5.4070914322511925]
MODAは、DNNモデル内の固有のモジュラリティを促進し、レイヤのアクティベーション出力を直接制御する。
29%のトレーニング時間でモジュール化を実現します。
ターゲットクラスの精度を平均で12%向上させ、他のクラスの精度に最小限の影響を与える。
論文 参考訳(メタデータ) (2024-11-01T23:07:33Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。