Fugu-MT 論文翻訳(概要): NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models

論文の概要: NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models

arxiv url: http://arxiv.org/abs/2508.11348v1
Date: Fri, 15 Aug 2025 09:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:23.834997
Title: NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models
Title（参考訳）: NeMo:DNNモデルの分解のためのニューロンレベルモジュラライズ-While-Trainingアプローチ
Authors: Xiaohan Bi, Binhang Qi, Hailong Sun, Xiang Gao, Yue Yu, Xiaojun Liang,
Abstract要約: 我々は、ディープニューラルネットワーク(DNN)モデルのためのスケーラブルで一般化可能なモジュラートレーニングアプローチであるNeMoを提案する。 NeMoはすべてのDNNに共通するニューロンレベルの基本成分をトランスフォーマーに適用可能である。モジュール分類精度は平均1.72%向上し,モジュールサイズは58.10%減少し,CNNモデルと大規模トランスフォーマーモデルの両方で有効性を示した。
参考スコア（独自算出の注目度）: 19.733190038554408
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the growing incorporation of deep neural network (DNN) models into modern software systems, the prohibitive construction costs have become a significant challenge. Model reuse has been widely applied to reduce training costs, but indiscriminately reusing entire models may incur significant inference overhead. Consequently, DNN modularization has gained attention, enabling module reuse by decomposing DNN models. The emerging modularizing-while-training (MwT) paradigm, which incorporates modularization into training, outperforms modularizing-after-training approaches. However, existing MwT methods focus on small-scale CNN models at the convolutional kernel level and struggle with diverse DNNs and large-scale models, particularly Transformer-based models. To address these limitations, we propose NeMo, a scalable and generalizable MwT approach. NeMo operates at the neuron level fundamental component common to all DNNs-ensuring applicability to Transformers and various architectures. We design a contrastive learning-based modular training method with an effective composite loss function, enabling scalability to large-scale models. Comprehensive experiments on two Transformer-based models and four CNN models across two classification datasets demonstrate NeMo's superiority over state-of-the-art MwT methods. Results show average gains of 1.72% in module classification accuracy and 58.10% reduction in module size, demonstrating efficacy across both CNN and large-scale Transformer-based models. A case study on open-source projects shows NeMo's potential benefits in practical scenarios, offering a promising approach for scalable and generalizable DNN modularization.
Abstract（参考訳）: 最新のソフトウェアシステムにディープニューラルネットワーク(DNN)モデルを組み込むことで、禁忌な建設コストが大きな課題となっている。モデルの再利用は、トレーニングコストの削減に広く適用されてきたが、モデル全体を無差別に再利用することは、大きな推論オーバーヘッドを引き起こす可能性がある。その結果、DNNのモジュール化が注目され、DNNモデルを分解することでモジュールの再利用が可能になった。新たなモジュール化学習(MwT)パラダイムは、トレーニングにモジュール化を取り入れ、モジュール化後トレーニングアプローチよりも優れています。しかし、既存のMwTメソッドは、畳み込みカーネルレベルでの小規模なCNNモデルに焦点を当て、様々なDNNや大規模モデル、特にTransformerベースのモデルと競合する。これらの制約に対処するために、スケーラブルで一般化可能なMwTアプローチであるNeMoを提案する。 NeMoはすべてのDNNに共通するニューロンレベルで動作し、トランスフォーマーや様々なアーキテクチャに適用可能である。我々は,大規模なモデルに拡張性を持たせるために,効率的な複合的損失関数を持つ対照的な学習に基づくモジュラートレーニング手法を設計する。 2つの分類データセットにわたるトランスフォーマーモデルと4つのCNNモデルに関する総合的な実験は、NeMoが最先端のMwT法よりも優れていることを示している。その結果、モジュール分類の精度が1.72%向上し、モジュールサイズが58.10%減少し、CNNと大規模トランスフォーマーモデルの両方で有効性が示された。オープンソースのプロジェクトに関するケーススタディは、NeMoの実用的なシナリオにおける潜在的なメリットを示し、スケーラブルで一般化可能なDNNモジュール化のための有望なアプローチを提供する。

関連論文リスト

Improving DNN Modularization via Activation-Driven Training [5.4070914322511925]
MODAは、DNNモデル内の固有のモジュラリティを促進し、レイヤのアクティベーション出力を直接制御する。 29%のトレーニング時間でモジュール化を実現します。ターゲットクラスの精度を平均で12%向上させ、他のクラスの精度に最小限の影響を与える。
論文参考訳（メタデータ） (2024-11-01T23:07:33Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers [27.73393245438193]
モジュール間知識伝達のためのモジュール間知識蒸留(m2mKD)を提案する。ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つのモジュール型ニューラルネットワーク上でm2mKDを評価する。 m2mKDをNACに適用すると、Tiny-ImageNet上でのID精度が大幅に向上し、Tiny-ImageNet-R上でのOOD堅牢性が向上する。
論文参考訳（メタデータ） (2024-02-26T04:47:32Z)
Modularizing while Training: A New Paradigm for Modularizing DNN Models [20.892788625187702]
モデルトレーニングプロセス,すなわちモジュール化時トレーニング(MwT)にモジュール化を取り入れた新しいアプローチを提案する。 MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。トレーニングとモジュール化に必要な総時間費用は,ベースラインの半分の108分に過ぎません。
論文参考訳（メタデータ） (2023-06-15T07:45:43Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。 NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。 NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文参考訳（メタデータ） (2022-10-14T18:00:07Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Accurate and Lightweight Image Super-Resolution with Model-Guided Deep Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。 MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。 RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文参考訳（メタデータ） (2020-09-14T08:23:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。