Fugu-MT 論文翻訳(概要): Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference

論文の概要: Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference

arxiv url: http://arxiv.org/abs/2312.03464v1
Date: Wed, 6 Dec 2023 12:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 14:57:09.498220
Title: Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference
Title（参考訳）: Subnetwork-to-go:動的トレーニングとカスタマイズ可能な推論を備えた弾性ニューラルネットワーク
Authors: Kai Li, Yi Luo
Abstract要約: 本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
参考スコア（独自算出の注目度）: 16.564868336748503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying neural networks to different devices or platforms is in general challenging, especially when the model size is large or model complexity is high. Although there exist ways for model pruning or distillation, it is typically required to perform a full round of model training or finetuning procedure in order to obtain a smaller model that satisfies the model size or complexity constraints. Motivated by recent works on dynamic neural networks, we propose a simple way to train a large network and flexibly extract a subnetwork from it given a model size or complexity constraint during inference. We introduce a new way to allow a large model to be trained with dynamic depth and width during the training phase, and after the large model is trained we can select a subnetwork from it with arbitrary depth and width during the inference phase with a relatively better performance compared to training the subnetwork independently from scratch. Experiment results on a music source separation model show that our proposed method can effectively improve the separation performance across different subnetwork sizes and complexities with a single large model, and training the large model takes significantly shorter time than training all the different subnetworks.
Abstract（参考訳）: 異なるデバイスやプラットフォームにニューラルネットワークをデプロイすることは、特にモデルサイズが大きい場合やモデル複雑性が高い場合、一般的に難しい。モデルプルーニングや蒸留の方法は存在するが、一般的にはモデルサイズや複雑さの制約を満たすより小さなモデルを得るために、モデルトレーニングや微調整手順の完全なラウンドを実行する必要がある。動的ニューラルネットワークの最近の研究に動機づけられて,大規模ネットワークを訓練し,モデルサイズや推論時の複雑性制約を与えられたサブネットワークから柔軟に抽出する方法を提案する。そこで,本研究では,学習段階において,大規模モデルが動的深さと幅で訓練できる新しい手法を導入するとともに,大規模モデルが訓練された後,推定段階で任意の深さと幅のサブネットワークを選択でき,スクラッチから独立してサブネットワークを訓練するよりも,比較的優れた性能が得られることを示す。音源分離モデルによる実験結果から,提案手法は単一大規模モデルで異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上し,大規模モデルのトレーニングに要する時間は,すべてのサブネットワークをトレーニングするよりもはるかに短いことがわかった。

関連論文リスト

Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文参考訳（メタデータ） (2024-03-23T08:40:38Z)
SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。 SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文参考訳（メタデータ） (2023-09-01T05:12:25Z)
Dynamic Mixed Membership Stochastic Block Model for Weighted Labeled Networks [3.5450828190071655]
混合メンバシップブロックモデル(MMSBM)の新たなファミリーは、混合メンバシップクラスタリングを前提として静的ラベル付きネットワークをモデル化することができる。提案手法は既存手法とは大きく異なり,より複雑なシステム - 動的ラベル付きネットワークをモデル化できることを示す。
論文参考訳（メタデータ） (2023-04-12T15:01:03Z)
Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。 SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。 ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文参考訳（メタデータ） (2023-02-13T18:37:37Z)
On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文参考訳（メタデータ） (2022-11-10T03:56:48Z)
Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文参考訳（メタデータ） (2021-06-16T15:57:51Z)
Learnable Expansion-and-Compression Network for Few-shot Class-Incremental Learning [87.94561000910707]
破滅的忘れとモデルオーバーフィッティングの問題を解決するための学習可能な拡張・圧縮ネットワーク(LEC-Net)を提案する。 LEC-Netは機能の表現能力を拡大し、モデル正規化の観点から古いネットワークの特徴漂流を緩和します。 CUB/CIFAR-100データセットの実験では、LEC-Netがベースラインを57%改善し、最先端の56%を上回ります。
論文参考訳（メタデータ） (2021-04-06T04:34:21Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。