論文の概要: Modularizing while Training: A New Paradigm for Modularizing DNN Models
- arxiv url: http://arxiv.org/abs/2306.09376v3
- Date: Thu, 5 Oct 2023 10:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:00:47.064143
- Title: Modularizing while Training: A New Paradigm for Modularizing DNN Models
- Title(参考訳): トレーニング中のモジュール化: DNNモデルのモジュール化のための新しいパラダイム
- Authors: Binhang Qi, Hailong Sun, Hongyu Zhang, Ruobing Zhao, Xiang Gao
- Abstract要約: モデルトレーニングプロセス,すなわちモジュール化時トレーニング(MwT)にモジュール化を取り入れた新しいアプローチを提案する。
MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
トレーニングとモジュール化に必要な総時間費用は,ベースラインの半分の108分に過ぎません。
- 参考スコア(独自算出の注目度): 20.892788625187702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network (DNN) models have become increasingly crucial components
in intelligent software systems. However, training a DNN model is typically
expensive in terms of both time and money. To address this issue, researchers
have recently focused on reusing existing DNN models - borrowing the idea of
code reuse in software engineering. However, reusing an entire model could
cause extra overhead or inherits the weakness from the undesired
functionalities. Hence, existing work proposes to decompose an already trained
model into modules, i.e., modularizing-after-training, and enable module reuse.
Since trained models are not built for modularization,
modularizing-after-training incurs huge overhead and model accuracy loss. In
this paper, we propose a novel approach that incorporates modularization into
the model training process, i.e., modularizing-while-training (MwT). We train a
model to be structurally modular through two loss functions that optimize
intra-module cohesion and inter-module coupling. We have implemented the
proposed approach for modularizing Convolutional Neural Network (CNN) models in
this work. The evaluation results on representative models demonstrate that MwT
outperforms the state-of-the-art approach. Specifically, the accuracy loss
caused by MwT is only 1.13 percentage points, which is 1.76 percentage points
less than that of the baseline. The kernel retention rate of the modules
generated by MwT is only 14.58%, with a reduction of 74.31% over the
state-of-the-art approach. Furthermore, the total time cost required for
training and modularizing is only 108 minutes, half of the baseline.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルは、インテリジェントソフトウェアシステムにおいてますます重要なコンポーネントになりつつある。
しかし、DNNモデルのトレーニングは通常、時間とお金の両方の観点からコストがかかる。
この問題に対処するため、研究者は最近、既存のDNNモデルを再利用することに重点を置いている。
しかし、モデル全体の再利用は、余分なオーバーヘッドを引き起こしたり、望ましくない機能から弱点を継承する可能性がある。
したがって、既存の作業は、既に訓練済みのモデルをモジュール、すなわちモジュール化後のトレーニング、モジュールの再利用に分解することを提案する。
トレーニングされたモデルはモジュール化のために構築されていないため、モジュール化後トレーニングは膨大なオーバーヘッドとモデルの精度の損失をもたらす。
本稿では,モデル学習プロセス,すなわちmodularization-while-training (mwt) にモジュール化を組み込んだ新しい手法を提案する。
我々は、モジュール内凝集とモジュール間結合を最適化する2つの損失関数を通して、構造的にモジュラーとなるモデルを訓練する。
本研究では,畳み込みニューラルネットワーク(CNN)モデルをモジュール化するための提案手法を実装した。
代表モデルによる評価結果は,MwTが最先端アプローチよりも優れていることを示す。
具体的には、MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
MwTが生成したモジュールのカーネル保持率は14.58%に過ぎず、最先端のアプローチでは74.31%削減された。
さらに、トレーニングとモジュール化に必要な総時間コストは、ベースラインの半分の108分に過ぎない。
関連論文リスト
- Improving DNN Modularization via Activation-Driven Training [5.4070914322511925]
MODAは、DNNモデル内の固有のモジュラリティを促進し、レイヤのアクティベーション出力を直接制御する。
29%のトレーニング時間でモジュール化を実現します。
ターゲットクラスの精度を平均で12%向上させ、他のクラスの精度に最小限の影響を与える。
論文 参考訳(メタデータ) (2024-11-01T23:07:33Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。