論文の概要: MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations
- arxiv url: http://arxiv.org/abs/2105.07085v1
- Date: Fri, 14 May 2021 22:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:49:12.783374
- Title: MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations
- Title(参考訳): MutualNet: 異なるモデル構成からの相互学習による適応型ConvNet
- Authors: Taojiannan Yang, Sijie Zhu, Matias Mendieta, Pu Wang, Ravikumar
Balakrishnan, Minwoo Lee, Tao Han, Mubarak Shah, Chen Chen
- Abstract要約: MutualNetは、リソース制約の多様なセットで実行できる単一のネットワークを訓練するために提案します。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
MutualNetは、さまざまなネットワーク構造に適用できる一般的なトレーニング方法論です。
- 参考スコア(独自算出の注目度): 51.85020143716815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing deep neural networks are static, which means they can only do
inference at a fixed complexity. But the resource budget can vary substantially
across different devices. Even on a single device, the affordable budget can
change with different scenarios, and repeatedly training networks for each
required budget would be incredibly expensive. Therefore, in this work, we
propose a general method called MutualNet to train a single network that can
run at a diverse set of resource constraints. Our method trains a cohort of
model configurations with various network widths and input resolutions. This
mutual learning scheme not only allows the model to run at different
width-resolution configurations but also transfers the unique knowledge among
these configurations, helping the model to learn stronger representations
overall. MutualNet is a general training methodology that can be applied to
various network structures (e.g., 2D networks: MobileNets, ResNet, 3D networks:
SlowFast, X3D) and various tasks (e.g., image classification, object detection,
segmentation, and action recognition), and is demonstrated to achieve
consistent improvements on a variety of datasets. Since we only train the model
once, it also greatly reduces the training cost compared to independently
training several models. Surprisingly, MutualNet can also be used to
significantly boost the performance of a single network, if dynamic resource
constraint is not a concern. In summary, MutualNet is a unified method for both
static and adaptive, 2D and 3D networks. Codes and pre-trained models are
available at \url{https://github.com/taoyang1122/MutualNet}.
- Abstract(参考訳): 既存のディープニューラルネットワークのほとんどは静的であり、固定された複雑性で推論しかできない。
しかし、リソース予算はさまざまなデバイスで大きく異なります。
1台のデバイスでも、安価な予算は異なるシナリオで変更でき、必要な予算ごとに繰り返しネットワークをトレーニングすることは信じられないほどコストがかかるでしょう。
そこで本研究では,リソース制約の多様なセットで動作可能な単一ネットワークをトレーニングするための,MutualNetと呼ばれる汎用手法を提案する。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
この相互学習スキームは、モデルが異なる幅分解能な構成で実行できるだけでなく、これらの構成の間でユニークな知識を伝達し、モデル全体がより強力な表現を学習するのに役立つ。
MutualNetは、様々なネットワーク構造(MobileNets, ResNet, 3D Network: SlowFast, X3D)や様々なタスク(画像分類、オブジェクト検出、セグメンテーション、アクション認識など)に適用可能な一般的なトレーニング手法であり、さまざまなデータセットで一貫した改善を実現するために実証されている。
モデルを一度だけトレーニングするので、複数のモデルを独立にトレーニングするよりも、トレーニングコストを大幅に削減できます。
驚くべきことに、動的リソース制約が懸念されない場合、MutualNetは単一のネットワークのパフォーマンスを大幅に向上するためにも使用できる。
要約すると、 mutualnet は静的および適応的、2dおよび3dネットワークの両方の統一的な方法である。
コードと事前訓練されたモデルは、 \url{https://github.com/taoyang1122/MutualNet}で入手できる。
関連論文リスト
- Network Fission Ensembles for Low-Cost Self-Ensembles [20.103367702014474]
NFE(Network Fission Ensembles)と呼ばれる低コストのアンサンブル学習と推論を提案する。
まず、トレーニングの負担を軽減するために、いくつかの重みを取り除きます。
次に、残りの重みを複数の集合に分けて、各集合を用いて複数の補助経路を作成し、複数の集合を構成する。
論文 参考訳(メタデータ) (2024-08-05T08:23:59Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Cooperative Learning for Cost-Adaptive Inference [3.301728339780329]
提案されたフレームワークは、特定のアーキテクチャに縛られないが、既存のモデル/アーキテクチャを組み込むことができる。
モデルのサイズが多様である間、フルネットワークに匹敵する精度を提供する。
論文 参考訳(メタデータ) (2023-12-13T21:42:27Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Multi-channel U-Net for Music Source Separation [3.814858728853163]
条件付きU-Net(C-U-Net)は、マルチソース分離のための単一のモデルをトレーニングするための制御機構を使用する。
重み付きマルチタスク損失を用いたマルチチャネルU-Net(M-U-Net)を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:42:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。