論文の概要: SortedNet, a Place for Every Network and Every Network in its Place:
Towards a Generalized Solution for Training Many-in-One Neural Networks
- arxiv url: http://arxiv.org/abs/2309.00255v2
- Date: Sun, 3 Mar 2024 05:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:50:24.542829
- Title: SortedNet, a Place for Every Network and Every Network in its Place:
Towards a Generalized Solution for Training Many-in-One Neural Networks
- Title(参考訳): sortednet - あらゆるネットワークとその場所のネットワークのための場所 - マルチインワンニューラルネットワークをトレーニングするための汎用ソリューションを目指して
- Authors: Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Parsa
Kavehzadeh, Marzieh Tahaei, Boxing Chen, and Ali Ghodsi
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、多数のサブモデルの同時トレーニングを可能にし、推論中に動的モデルの選択とデプロイを簡略化し、モデルストレージの要求を大幅に削減する。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
- 参考スコア(独自算出の注目度): 30.069353400127046
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks (DNNs) must cater to a variety of users with different
performance needs and budgets, leading to the costly practice of training,
storing, and maintaining numerous specific models. There are solutions in the
literature to deal with single dynamic or many-in-one models instead of many
individual networks; however, they usually suffer from heavy model search
requirements, being architecture-specific, working only on a limited number of
dimensions (e.g. depth only or width only) or sub-models. To address these
problems, we propose SortedNet, a generalized and scalable training solution to
harness the inherent modularity of DNNs. Thanks to a generalized nested
architecture (which we refer to as \textit{sorted} architecture in this paper)
with shared parameters and its novel update scheme combining random sub-model
sampling and gradient accumulation, SortedNet enables the training of numerous
sub-models simultaneously, simplifies dynamic model selection and deployment
during inference, and reduces the model storage requirement significantly. The
versatility and scalability of SortedNet are validated through various
architectures and tasks including LLaMA, BERT, RoBERTa (NLP tasks), ResNet and
MobileNet (image classification) demonstrating its superiority over existing
dynamic training methods. SortedNet is able to train up to 160 sub-models at
once, achieving at least 96\% of the original model's performance.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、さまざまなパフォーマンスニーズと予算を持つさまざまなユーザに対して、トレーニングや保存、多数の特定のモデルのメンテナンスといったコストを要する。
文献には、多くの個別のネットワークではなく、単一の動的または多元的モデルを扱うソリューションがあるが、それらは通常、アーキテクチャ固有の重いモデル探索要求に苦しめられ、限られた数の次元(例えば、深さのみまたは幅のみ)またはサブモデルでのみ動作する。
これらの問題に対処するために、DNNの固有のモジュラリティを活用するために、一般化されたスケーラブルなトレーニングソリューションであるSortedNetを提案する。
共有パラメータを持つ一般的なネストアーキテクチャ(この論文では \textit{sorted} アーキテクチャ)と、ランダムなサブモデルサンプリングと勾配の蓄積を組み合わせた新しい更新スキームのおかげで、sortednetは多数のサブモデルのトレーニングを同時に可能にし、推論中に動的モデルの選択と配置を単純化し、モデルストレージ要件を大幅に削減します。
SortedNetの汎用性とスケーラビリティは、LLaMA、BERT、RoBERTa(NLPタスク)、ResNet、MobileNet(画像分類)といった様々なアーキテクチャやタスクを通じて検証され、既存の動的トレーニング手法よりも優れていることを示す。
sortednetは160のサブモデルを一度にトレーニングでき、元のモデルのパフォーマンスの少なくとも96\%を達成した。
関連論文リスト
- Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Generative Model for Models: Rapid DNN Customization for Diverse Tasks
and Resource Constraints [28.983470365172057]
NN-Factoryは、さまざまなエッジシナリオ用にカスタマイズされた軽量モデルを生成する、オールツーオールのフレームワークである。
NN-Factoryの主なコンポーネントは、異なるタスクを達成するために条件付きアクティベート可能な、事前訓練されたモジュールを備えたモジュラースーパーネットである。
NN-Factoryは、従来のモデルのカスタマイズアプローチよりも桁違いに高速で、数秒で高品質なタスクやリソース固有のモデルを生成することができる。
論文 参考訳(メタデータ) (2023-08-29T03:28:14Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Deep Model Reassembly [60.6531819328247]
我々はDeep Model Reassembly(DeRy)と呼ばれる新しい知識伝達タスクを探索する。
DeRyの目標は、まず各モデルを固有のビルディングブロックに分割し、それから派生したブロックを選択的に再組み立てて、カスタマイズされたネットワークを生成することである。
ImageNetでは、最高の再組み立てモデルは微調整なしで78.6%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-10-24T10:16:13Z) - JMSNAS: Joint Model Split and Neural Architecture Search for Learning
over Mobile Edge Networks [23.230079759174902]
モバイルエッジネットワーク上でのDNNモデルの自動生成とデプロイのために,ジョイントモデル分割とニューラルアーキテクチャサーチ(JMSNAS)フレームワークを提案する。
計算資源制約と通信資源制約の両方を考慮すると、計算グラフ探索問題を定式化する。
実験により,最先端の分割機械学習設計手法よりも提案手法が優れていることを確認した。
論文 参考訳(メタデータ) (2021-11-16T03:10:23Z) - MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations [51.85020143716815]
MutualNetは、リソース制約の多様なセットで実行できる単一のネットワークを訓練するために提案します。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
MutualNetは、さまざまなネットワーク構造に適用できる一般的なトレーニング方法論です。
論文 参考訳(メタデータ) (2021-05-14T22:30:13Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z) - Dynamic Sparsity Neural Networks for Automatic Speech Recognition [44.352231175123215]
動的スパシティニューラルネットワーク(DSNN)は、トレーニングが完了すれば、実行時に任意の定義済みのスパシティ設定に即時に切り替えることができる。
したがって、トレーニングされたDSNNモデルは、トレーニングプロセスを大幅に緩和し、リソース制約のある多様なシナリオでのデプロイを簡素化できます。
論文 参考訳(メタデータ) (2020-05-16T22:08:54Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。