論文の概要: Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models
- arxiv url: http://arxiv.org/abs/2405.07527v1
- Date: Mon, 13 May 2024 07:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:34:42.522829
- Title: Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models
- Title(参考訳): 列車の高速化と性能向上 - 過パラメータモデルによるモジュール適応トレーニング
- Authors: Yubin Shi, Yixuan Chen, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Yujiang Wang, Robert P. Dick, Qin Lv, Yingying Zhao, Fan Yang, Tun Lu, Ning Gu, Li Shang,
- Abstract要約: モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 31.960749305728488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their prevalence in deep-learning communities, over-parameterized models convey high demands of computational costs for proper training. This work studies the fine-grained, modular-level learning dynamics of over-parameterized models to attain a more efficient and fruitful training strategy. Empirical evidence reveals that when scaling down into network modules, such as heads in self-attention models, we can observe varying learning patterns implicitly associated with each module's trainability. To describe such modular-level learning capabilities, we introduce a novel concept dubbed modular neural tangent kernel (mNTK), and we demonstrate that the quality of a module's learning is tightly associated with its mNTK's principal eigenvalue $\lambda_{\max}$. A large $\lambda_{\max}$ indicates that the module learns features with better convergence, while those miniature ones may impact generalization negatively. Inspired by the discovery, we propose a novel training strategy termed Modular Adaptive Training (MAT) to update those modules with their $\lambda_{\max}$ exceeding a dynamic threshold selectively, concentrating the model on learning common features and ignoring those inconsistent ones. Unlike most existing training schemes with a complete BP cycle across all network modules, MAT can significantly save computations by its partially-updating strategy and can further improve performance. Experiments show that MAT nearly halves the computational cost of model training and outperforms the accuracy of baselines.
- Abstract(参考訳): ディープラーニングコミュニティで普及しているにもかかわらず、過度にパラメータ化されたモデルは、適切なトレーニングのための計算コストの高い要求を伝達する。
この研究は、より効率的で実りあるトレーニング戦略を達成するために、過度にパラメータ化されたモデルのきめ細かいモジュールレベルの学習力学を研究する。
実証的な証拠は、自己注意モデルにおけるヘッドのようなネットワークモジュールへのスケールダウンでは、各モジュールのトレーニング容易性に暗黙的に関連付けられたさまざまな学習パターンを観察できることを示している。
このようなモジュールレベルの学習能力を説明するために,モジュール型ニューラルネットワークカーネル (mNTK) と呼ばれる新しい概念を導入し,モジュールの学習の質がmNTKの主固有値$\lambda_{\max}$と密接に関連していることを示す。
大きな$\lambda_{\max}$は、モジュールがより収束した特徴を学習することを示しているが、これらのミニチュアなものは一般化に悪影響を及ぼす可能性がある。
この発見に触発されて、我々は、モジュールを動的しきい値を超え、共通の特徴を学習し、一貫性のないものを無視してモデルを集中させる、MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
すべてのネットワークモジュールに完全なBPサイクルを持つ既存のトレーニングスキームとは異なり、MATはその部分更新戦略によって計算を著しく削減し、パフォーマンスをさらに向上させることができる。
実験により、MATはモデルトレーニングの計算コストをほぼ半分にし、ベースラインの精度より優れていることが示された。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Modularizing while Training: A New Paradigm for Modularizing DNN Models [20.892788625187702]
モデルトレーニングプロセス,すなわちモジュール化時トレーニング(MwT)にモジュール化を取り入れた新しいアプローチを提案する。
MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
トレーニングとモジュール化に必要な総時間費用は,ベースラインの半分の108分に過ぎません。
論文 参考訳(メタデータ) (2023-06-15T07:45:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Bulk-Switching Memristor-based Compute-In-Memory Module for Deep Neural
Network Training [15.660697326769686]
本稿では,memristor-based Compute-in-Memory (CIM)モジュールの混合精度トレーニング手法を提案する。
提案方式は、完全に統合されたアナログCIMモジュールとデジタルサブシステムからなるシステムオンチップ(SoC)を用いて実装される。
より大規模なモデルのトレーニングの有効性は、現実的なハードウェアパラメータを用いて評価され、アナログCIMモジュールが、完全精度のソフトウェアトレーニングモデルに匹敵する精度で、効率的な混合精度トレーニングを可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-23T22:03:08Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。