論文の概要: Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference
- arxiv url: http://arxiv.org/abs/2312.03464v1
- Date: Wed, 6 Dec 2023 12:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:57:09.498220
- Title: Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference
- Title(参考訳): Subnetwork-to-go:動的トレーニングとカスタマイズ可能な推論を備えた弾性ニューラルネットワーク
- Authors: Kai Li, Yi Luo
- Abstract要約: 本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 16.564868336748503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying neural networks to different devices or platforms is in general
challenging, especially when the model size is large or model complexity is
high. Although there exist ways for model pruning or distillation, it is
typically required to perform a full round of model training or finetuning
procedure in order to obtain a smaller model that satisfies the model size or
complexity constraints. Motivated by recent works on dynamic neural networks,
we propose a simple way to train a large network and flexibly extract a
subnetwork from it given a model size or complexity constraint during
inference. We introduce a new way to allow a large model to be trained with
dynamic depth and width during the training phase, and after the large model is
trained we can select a subnetwork from it with arbitrary depth and width
during the inference phase with a relatively better performance compared to
training the subnetwork independently from scratch. Experiment results on a
music source separation model show that our proposed method can effectively
improve the separation performance across different subnetwork sizes and
complexities with a single large model, and training the large model takes
significantly shorter time than training all the different subnetworks.
- Abstract(参考訳): 異なるデバイスやプラットフォームにニューラルネットワークをデプロイすることは、特にモデルサイズが大きい場合やモデル複雑性が高い場合、一般的に難しい。
モデルプルーニングや蒸留の方法は存在するが、一般的にはモデルサイズや複雑さの制約を満たすより小さなモデルを得るために、モデルトレーニングや微調整手順の完全なラウンドを実行する必要がある。
動的ニューラルネットワークの最近の研究に動機づけられて,大規模ネットワークを訓練し,モデルサイズや推論時の複雑性制約を与えられたサブネットワークから柔軟に抽出する方法を提案する。
そこで,本研究では,学習段階において,大規模モデルが動的深さと幅で訓練できる新しい手法を導入するとともに,大規模モデルが訓練された後,推定段階で任意の深さと幅のサブネットワークを選択でき,スクラッチから独立してサブネットワークを訓練するよりも,比較的優れた性能が得られることを示す。
音源分離モデルによる実験結果から,提案手法は単一大規模モデルで異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上し,大規模モデルのトレーニングに要する時間は,すべてのサブネットワークをトレーニングするよりもはるかに短いことがわかった。
関連論文リスト
- Dynamic Mixed Membership Stochastic Block Model for Weighted Labeled
Networks [3.5450828190071655]
混合メンバシップブロックモデル(MMSBM)の新たなファミリーは、混合メンバシップクラスタリングを前提として静的ラベル付きネットワークをモデル化することができる。
提案手法は既存手法とは大きく異なり,より複雑なシステム - 動的ラベル付きネットワークをモデル化できることを示す。
論文 参考訳(メタデータ) (2023-04-12T15:01:03Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - On Optimizing the Communication of Model Parallelism [79.33873698640662]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations [51.85020143716815]
MutualNetは、リソース制約の多様なセットで実行できる単一のネットワークを訓練するために提案します。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
MutualNetは、さまざまなネットワーク構造に適用できる一般的なトレーニング方法論です。
論文 参考訳(メタデータ) (2021-05-14T22:30:13Z) - Learnable Expansion-and-Compression Network for Few-shot
Class-Incremental Learning [87.94561000910707]
破滅的忘れとモデルオーバーフィッティングの問題を解決するための学習可能な拡張・圧縮ネットワーク(LEC-Net)を提案する。
LEC-Netは機能の表現能力を拡大し、モデル正規化の観点から古いネットワークの特徴漂流を緩和します。
CUB/CIFAR-100データセットの実験では、LEC-Netがベースラインを57%改善し、最先端の56%を上回ります。
論文 参考訳(メタデータ) (2021-04-06T04:34:21Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。