論文の概要: SortedNet, a Place for Every Network and Every Network in its Place:
Towards a Generalized Solution for Training Many-in-One Neural Networks
- arxiv url: http://arxiv.org/abs/2309.00255v1
- Date: Fri, 1 Sep 2023 05:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:21:54.702667
- Title: SortedNet, a Place for Every Network and Every Network in its Place:
Towards a Generalized Solution for Training Many-in-One Neural Networks
- Title(参考訳): sortednet - あらゆるネットワークとその場所のネットワークのための場所 - マルチインワンニューラルネットワークをトレーニングするための汎用ソリューションを目指して
- Authors: Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Marzieh
Tahaei, Boxing Chen, and Ali Ghodsi
- Abstract要約: SortedNetは、ディープニューラルネットワークの固有のモジュラリティを利用して効率的な動的推論を行う。
我々のトレーニングでは、パラメータを共有するサブモデルのネストアーキテクチャを検討し、それらをソートされ確率的な方法でメインモデルと一緒に訓練する。
提案手法の広範な拡張性を示すため,160種類のサブモデルを同時にトレーニング可能であることを示す。
- 参考スコア(独自算出の注目度): 31.57720279572136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the size of deep learning models continues to grow, finding optimal models
under memory and computation constraints becomes increasingly more important.
Although usually the architecture and constituent building blocks of neural
networks allow them to be used in a modular way, their training process is not
aware of this modularity. Consequently, conventional neural network training
lacks the flexibility to adapt the computational load of the model during
inference. This paper proposes SortedNet, a generalized and scalable solution
to harness the inherent modularity of deep neural networks across various
dimensions for efficient dynamic inference. Our training considers a nested
architecture for the sub-models with shared parameters and trains them together
with the main model in a sorted and probabilistic manner. This sorted training
of sub-networks enables us to scale the number of sub-networks to hundreds
using a single round of training. We utilize a novel updating scheme during
training that combines random sampling of sub-networks with gradient
accumulation to improve training efficiency. Furthermore, the sorted nature of
our training leads to a search-free sub-network selection at inference time;
and the nested architecture of the resulting sub-networks leads to minimal
storage requirement and efficient switching between sub-networks at inference.
Our general dynamic training approach is demonstrated across various
architectures and tasks, including large language models and pre-trained vision
models. Experimental results show the efficacy of the proposed approach in
achieving efficient sub-networks while outperforming state-of-the-art dynamic
training approaches. Our findings demonstrate the feasibility of training up to
160 different sub-models simultaneously, showcasing the extensive scalability
of our proposed method while maintaining 96% of the model performance.
- Abstract(参考訳): ディープラーニングモデルのサイズが大きくなるにつれて、メモリと計算の制約の下で最適なモデルを見つけることがますます重要になる。
通常、ニューラルネットワークのアーキテクチャと構成的ビルディングブロックはモジュラー方式で使用することができるが、トレーニングプロセスはこのモジュラリティを意識していない。
その結果、従来のニューラルネットワークトレーニングでは、推論中にモデルの計算負荷に適応する柔軟性が欠如している。
本稿では,様々な次元にまたがるディープニューラルネットワークのモジュール性を利用して,効率的な動的推論を行う汎用かつスケーラブルなソリューションであるSortedNetを提案する。
我々のトレーニングでは、パラメータを共有するサブモデルのネストアーキテクチャを検討し、それらをソートされ確率的な方法でメインモデルと一緒に訓練する。
このサブネットワークのソートトレーニングにより、単一のトレーニングラウンドを使用して、サブネットワークの数を数百にスケールすることが可能になります。
本研究では,学習効率を向上させるために,サブネットワークのランダムサンプリングと勾配蓄積を組み合わせた新しい更新手法を利用する。
さらに、学習のソートの性質は推論時に検索不要なサブネットワーク選択につながり、結果として生じるサブネットワークのネストアーキテクチャは最小限のストレージ要件につながり、推論時にサブネットワーク間を効率的に切り替える。
我々の一般的な動的トレーニングアプローチは、大規模言語モデルや事前学習された視覚モデルなど、様々なアーキテクチャやタスクにまたがって実証される。
実験結果は,最先端の動的トレーニング手法を上回りつつ,効率的なサブネットワークを実現するための提案手法の有効性を示した。
本研究は,160種類のサブモデルを同時にトレーニング可能であることを示し,モデル性能の96%を維持しながら提案手法の広範な拡張性を示す。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。
SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。
本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:46:01Z) - Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - Generative Model for Models: Rapid DNN Customization for Diverse Tasks
and Resource Constraints [28.983470365172057]
NN-Factoryは、さまざまなエッジシナリオ用にカスタマイズされた軽量モデルを生成する、オールツーオールのフレームワークである。
NN-Factoryの主なコンポーネントは、異なるタスクを達成するために条件付きアクティベート可能な、事前訓練されたモジュールを備えたモジュラースーパーネットである。
NN-Factoryは、従来のモデルのカスタマイズアプローチよりも桁違いに高速で、数秒で高品質なタスクやリソース固有のモデルを生成することができる。
論文 参考訳(メタデータ) (2023-08-29T03:28:14Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。