論文の概要: Deep Model Assembling
- arxiv url: http://arxiv.org/abs/2212.04129v1
- Date: Thu, 8 Dec 2022 08:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:30:12.595542
- Title: Deep Model Assembling
- Title(参考訳): 深層モデル組立
- Authors: Zanlin Ni, Yulin Wang, Jiangwei Yu, Haojun Jiang, Yue Cao, Gao Huang
- Abstract要約: 本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
- 参考スコア(独自算出の注目度): 31.88606253639418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large deep learning models have achieved remarkable success in many
scenarios. However, training large models is usually challenging, e.g., due to
the high computational cost, the unstable and painfully slow optimization
procedure, and the vulnerability to overfitting. To alleviate these problems,
this work studies a divide-and-conquer strategy, i.e., dividing a large model
into smaller modules, training them independently, and reassembling the trained
modules to obtain the target model. This approach is promising since it avoids
directly training large models from scratch. Nevertheless, implementing this
idea is non-trivial, as it is difficult to ensure the compatibility of the
independently trained modules. In this paper, we present an elegant solution to
address this issue, i.e., we introduce a global, shared meta model to
implicitly link all the modules together. This enables us to train highly
compatible modules that collaborate effectively when they are assembled
together. We further propose a module incubation mechanism that enables the
meta model to be designed as an extremely shallow network. As a result, the
additional overhead introduced by the meta model is minimalized. Though
conceptually simple, our method significantly outperforms end-to-end (E2E)
training in terms of both final accuracy and training efficiency. For example,
on top of ViT-Huge, it improves the accuracy by 2.7% compared to the E2E
baseline on ImageNet-1K, while saving the training cost by 43% in the meantime.
Code is available at https://github.com/LeapLabTHU/Model-Assembling.
- Abstract(参考訳): 大規模なディープラーニングモデルは、多くのシナリオで大きな成功を収めています。
しかし、大きなモデルのトレーニングは通常、計算コストが高く、不安定で苦痛を伴う最適化手順が遅くなり、過度に適合する脆弱性があるため、困難である。
これらの問題を緩和するために、この研究は、大きなモデルをより小さなモジュールに分割し、個別に訓練し、訓練されたモジュールを再組み立てしてターゲットモデルを得るという、分割・対数戦略を研究する。
大規模なモデルをスクラッチから直接トレーニングすることを避けるため、このアプローチは有望です。
しかし、独立に訓練されたモジュールの互換性を確保することは困難であるため、このアイデアの実装は簡単ではない。
本稿では,この問題に対処するためのエレガントな解決策を提案する。すなわち,すべてのモジュールを暗黙的にリンクする,グローバルな共有メタモデルを導入する。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
さらに,メタモデルを極端に浅いネットワークとして設計できるモジュールインキュベーション機構を提案する。
その結果、メタモデルによって導入された追加のオーバーヘッドは最小化される。
概念的には単純であるが,最終精度とトレーニング効率の面では,エンドツーエンド(e2e)トレーニングを有意に上回っている。
例えば、ViT-HugeではImageNet-1KのE2Eベースラインに比べて精度が2.7%向上し、トレーニングコストは43%削減された。
コードはhttps://github.com/leaplabthu/model-assemblingで入手できる。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers [27.73393245438193]
モジュール間知識伝達のためのモジュール間知識蒸留(m2mKD)を提案する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つのモジュール型ニューラルネットワーク上でm2mKDを評価する。
m2mKDをNACに適用すると、Tiny-ImageNet上でのID精度が大幅に向上し、Tiny-ImageNet-R上でのOOD堅牢性が向上する。
論文 参考訳(メタデータ) (2024-02-26T04:47:32Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Modularizing while Training: A New Paradigm for Modularizing DNN Models [20.892788625187702]
モデルトレーニングプロセス,すなわちモジュール化時トレーニング(MwT)にモジュール化を取り入れた新しいアプローチを提案する。
MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
トレーニングとモジュール化に必要な総時間費用は,ベースラインの半分の108分に過ぎません。
論文 参考訳(メタデータ) (2023-06-15T07:45:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Few-Shot Learning of Compact Models via Task-Specific Meta Distillation [16.683801607142257]
コンパクトモデルの少数ショット学習における新しい問題を考える。
メタ学習において2つのモデルを同時に学習するタスク固有のメタ蒸留を提案する。
論文 参考訳(メタデータ) (2022-10-18T15:06:47Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。