Fugu-MT 論文翻訳(概要): SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks

論文の概要: SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks

arxiv url: http://arxiv.org/abs/2309.00255v2
Date: Sun, 3 Mar 2024 05:26:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 02:50:24.542829
Title: SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks
Title（参考訳）: sortednet - あらゆるネットワークとその場所のネットワークのための場所 - マルチインワンニューラルネットワークをトレーニングするための汎用ソリューションを目指して
Authors: Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Parsa Kavehzadeh, Marzieh Tahaei, Boxing Chen, and Ali Ghodsi
Abstract要約: 我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。 SortedNetは、多数のサブモデルの同時トレーニングを可能にし、推論中に動的モデルの選択とデプロイを簡略化し、モデルストレージの要求を大幅に削減する。一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
参考スコア（独自算出の注目度）: 30.069353400127046
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep neural networks (DNNs) must cater to a variety of users with different performance needs and budgets, leading to the costly practice of training, storing, and maintaining numerous specific models. There are solutions in the literature to deal with single dynamic or many-in-one models instead of many individual networks; however, they usually suffer from heavy model search requirements, being architecture-specific, working only on a limited number of dimensions (e.g. depth only or width only) or sub-models. To address these problems, we propose SortedNet, a generalized and scalable training solution to harness the inherent modularity of DNNs. Thanks to a generalized nested architecture (which we refer to as \textit{sorted} architecture in this paper) with shared parameters and its novel update scheme combining random sub-model sampling and gradient accumulation, SortedNet enables the training of numerous sub-models simultaneously, simplifies dynamic model selection and deployment during inference, and reduces the model storage requirement significantly. The versatility and scalability of SortedNet are validated through various architectures and tasks including LLaMA, BERT, RoBERTa (NLP tasks), ResNet and MobileNet (image classification) demonstrating its superiority over existing dynamic training methods. SortedNet is able to train up to 160 sub-models at once, achieving at least 96\% of the original model's performance.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、さまざまなパフォーマンスニーズと予算を持つさまざまなユーザに対して、トレーニングや保存、多数の特定のモデルのメンテナンスといったコストを要する。文献には、多くの個別のネットワークではなく、単一の動的または多元的モデルを扱うソリューションがあるが、それらは通常、アーキテクチャ固有の重いモデル探索要求に苦しめられ、限られた数の次元(例えば、深さのみまたは幅のみ)またはサブモデルでのみ動作する。これらの問題に対処するために、DNNの固有のモジュラリティを活用するために、一般化されたスケーラブルなトレーニングソリューションであるSortedNetを提案する。共有パラメータを持つ一般的なネストアーキテクチャ(この論文では \textit{sorted} アーキテクチャ)と、ランダムなサブモデルサンプリングと勾配の蓄積を組み合わせた新しい更新スキームのおかげで、sortednetは多数のサブモデルのトレーニングを同時に可能にし、推論中に動的モデルの選択と配置を単純化し、モデルストレージ要件を大幅に削減します。 SortedNetの汎用性とスケーラビリティは、LLaMA、BERT、RoBERTa(NLPタスク)、ResNet、MobileNet(画像分類)といった様々なアーキテクチャやタスクを通じて検証され、既存の動的トレーニング手法よりも優れていることを示す。 sortednetは160のサブモデルを一度にトレーニングでき、元のモデルのパフォーマンスの少なくとも96\%を達成した。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳（メタデータ） (2024-06-14T13:12:07Z)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文参考訳（メタデータ） (2024-04-02T17:58:49Z)
Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-03-21T02:33:37Z)
Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。 SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-12-10T03:46:01Z)
Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文参考訳（メタデータ） (2023-12-06T12:40:06Z)
Generative Model for Models: Rapid DNN Customization for Diverse Tasks and Resource Constraints [28.983470365172057]
NN-Factoryは、さまざまなエッジシナリオ用にカスタマイズされた軽量モデルを生成する、オールツーオールのフレームワークである。 NN-Factoryの主なコンポーネントは、異なるタスクを達成するために条件付きアクティベート可能な、事前訓練されたモジュールを備えたモジュラースーパーネットである。 NN-Factoryは、従来のモデルのカスタマイズアプローチよりも桁違いに高速で、数秒で高品質なタスクやリソース固有のモデルを生成することができる。
論文参考訳（メタデータ） (2023-08-29T03:28:14Z)
Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。 SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。 ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文参考訳（メタデータ） (2023-02-13T18:37:37Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)
Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-26T09:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。