論文の概要: Improving DNN Modularization via Activation-Driven Training
- arxiv url: http://arxiv.org/abs/2411.01074v1
- Date: Fri, 01 Nov 2024 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:14.420702
- Title: Improving DNN Modularization via Activation-Driven Training
- Title(参考訳): アクティベーション駆動トレーニングによるDNNモジュール化の改善
- Authors: Tuan Ngo, Abid Hassan, Saad Shafiq, Nenad Medvidovic,
- Abstract要約: MODAは、DNNモデル内の固有のモジュラリティを促進し、レイヤのアクティベーション出力を直接制御する。
29%のトレーニング時間でモジュール化を実現します。
ターゲットクラスの精度を平均で12%向上させ、他のクラスの精度に最小限の影響を与える。
- 参考スコア(独自算出の注目度): 5.4070914322511925
- License:
- Abstract: Deep Neural Networks (DNNs) suffer from significant retraining costs when adapting to evolving requirements. Modularizing DNNs offers the promise of improving their reusability. Previous work has proposed techniques to decompose DNN models into modules both during and after training. However, these strategies yield several shortcomings, including significant weight overlaps and accuracy losses across modules, restricted focus on convolutional layers only, and added complexity and training time by introducing auxiliary masks to control modularity. In this work, we propose MODA, an activation-driven modular training approach. MODA promotes inherent modularity within a DNN model by directly regulating the activation outputs of its layers based on three modular objectives: intra-class affinity, inter-class dispersion, and compactness. MODA is evaluated using three well-known DNN models and three datasets with varying sizes. This evaluation indicates that, compared to the existing state-of-the-art, using MODA yields several advantages: (1) MODA accomplishes modularization with 29% less training time; (2) the resultant modules generated by MODA comprise 2.4x fewer weights and 3.5x less weight overlap while (3) preserving the original model's accuracy without additional fine-tuning; in module replacement scenarios, (4) MODA improves the accuracy of a target class by 12% on average while ensuring minimal impact on the accuracy of other classes.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、進化する要求に適応する際に、大幅なリトレーニングコストを被る。
DNNのモジュール化は、再利用性を改善するという約束を提供する。
これまでの研究では、DNNモデルをトレーニング中とトレーニング後の両方にモジュールに分解する手法が提案されてきた。
しかし、これらの戦略は、モジュール間の重なり合いや精度の低下、畳み込み層のみに制限されたフォーカス、モジュール性を制御するための補助マスクの導入による複雑さとトレーニング時間の追加など、いくつかの欠点を生んでいる。
本研究では,アクティベーション駆動型モジュール型トレーニング手法であるMODAを提案する。
MODAは、クラス間の親和性、クラス間分散、コンパクト性という3つのモジュラー目的に基づいて、DNNモデルの活性化出力を直接制御することで、DNNモデル内の固有のモジュラリティを促進する。
MODAは3つのよく知られたDNNモデルと3つのデータセットを用いて評価される。
この評価は,MODAを用いた既存の最先端技術と比較して,(1)MODAは29%のトレーニング時間でモジュール化を達成し,(2)MODAが生成したモジュールは2.4倍の重量と3.5倍の重量重なりを伴い,(3)元のモデルの精度を追加の微調整なしで保存する,(4)モジュール置換シナリオでは,目標クラスの精度を平均12%向上し,他のクラスの精度に最小限の影響を与えている,という利点を示唆している。
関連論文リスト
- m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers [27.73393245438193]
モジュール間知識伝達のためのモジュール間知識蒸留(m2mKD)を提案する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つのモジュール型ニューラルネットワーク上でm2mKDを評価する。
m2mKDをNACに適用すると、Tiny-ImageNet上でのID精度が大幅に向上し、Tiny-ImageNet-R上でのOOD堅牢性が向上する。
論文 参考訳(メタデータ) (2024-02-26T04:47:32Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Modularizing while Training: A New Paradigm for Modularizing DNN Models [20.892788625187702]
モデルトレーニングプロセス,すなわちモジュール化時トレーニング(MwT)にモジュール化を取り入れた新しいアプローチを提案する。
MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
トレーニングとモジュール化に必要な総時間費用は,ベースラインの半分の108分に過ぎません。
論文 参考訳(メタデータ) (2023-06-15T07:45:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Bulk-Switching Memristor-based Compute-In-Memory Module for Deep Neural
Network Training [15.660697326769686]
本稿では,memristor-based Compute-in-Memory (CIM)モジュールの混合精度トレーニング手法を提案する。
提案方式は、完全に統合されたアナログCIMモジュールとデジタルサブシステムからなるシステムオンチップ(SoC)を用いて実装される。
より大規模なモデルのトレーニングの有効性は、現実的なハードウェアパラメータを用いて評価され、アナログCIMモジュールが、完全精度のソフトウェアトレーニングモデルに匹敵する精度で、効率的な混合精度トレーニングを可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-23T22:03:08Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。