論文の概要: Does Interference Exist When Training a Once-For-All Network?
- arxiv url: http://arxiv.org/abs/2204.09210v1
- Date: Wed, 20 Apr 2022 03:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:45:52.074356
- Title: Does Interference Exist When Training a Once-For-All Network?
- Title(参考訳): 一度限りのネットワークをトレーニングする際の干渉は存在するか?
- Authors: Jordan Shipard, Arnold Wiliem, Clinton Fookes
- Abstract要約: once-For-Allメソッドは、トレーニングされたニューラルネットワークモデルを複数のターゲットプラットフォームにデプロイする。
訓練中に高い干渉が生じると、人口の累積は減少すると考えられている。
この研究では、この干渉効果をもう一度見てみます。
干渉緩和戦略は集団全体のパフォーマンスに大きな影響を与えないことが判明した。
- 参考スコア(独自算出の注目度): 21.058917368019713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Once-For-All (OFA) method offers an excellent pathway to deploy a trained
neural network model into multiple target platforms by utilising the
supernet-subnet architecture. Once trained, a subnet can be derived from the
supernet (both architecture and trained weights) and deployed directly to the
target platform with little to no retraining or fine-tuning. To train the
subnet population, OFA uses a novel training method called Progressive
Shrinking (PS) which is designed to limit the negative impact of interference
during training. It is believed that higher interference during training
results in lower subnet population accuracies. In this work we take a second
look at this interference effect. Surprisingly, we find that interference
mitigation strategies do not have a large impact on the overall subnet
population performance. Instead, we find the subnet architecture selection bias
during training to be a more important aspect. To show this, we propose a
simple-yet-effective method called Random Subnet Sampling (RSS), which does not
have mitigation on the interference effect. Despite no mitigation, RSS is able
to produce a better performing subnet population than PS in four
small-to-medium-sized datasets; suggesting that the interference effect does
not play a pivotal role in these datasets. Due to its simplicity, RSS provides
a $1.9\times$ reduction in training times compared to PS. A $6.1\times$
reduction can also be achieved with a reasonable drop in performance when the
number of RSS training epochs are reduced. Code available at
https://github.com/Jordan-HS/RSS-Interference-CVPRW2022.
- Abstract(参考訳): once-For-All(OFA)メソッドは、トレーニング済みニューラルネットワークモデルを複数のターゲットプラットフォームにデプロイするための優れた経路を提供する。
一度トレーニングすれば、サブネットはスーパーネット(アーキテクチャとトレーニングウェイトの両方)から派生し、再トレーニングや微調整をほとんど行わず、ターゲットプラットフォームに直接デプロイすることができる。
サブネット人口のトレーニングには、トレーニング中の干渉による負の影響を制限するために、プログレッシブ・シンキング(PS)と呼ばれる新しいトレーニング手法を使用する。
トレーニング中に高い干渉が生じると、サブネット人口は減少すると考えられている。
この研究では、この干渉効果をもう一度見ていく。
驚くべきことに、干渉緩和戦略がサブネット全体の人口パフォーマンスに大きな影響を与えないことがわかりました。
その代わり、トレーニング中にサブネットアーキテクチャの選択バイアスがより重要な側面であることに気付きました。
これを示すために、干渉効果を緩和しないRandom Subnet Sampling (RSS) という単純なyet- Effective法を提案する。
緩和されていないにもかかわらず、RSSは4つの小口径データセットにおいてPSよりもパフォーマンスの良いサブネット人口を生成することができ、これらのデータセットでは干渉効果が重要な役割を果たさないことを示唆している。
その単純さから、rssはpsに比べてトレーニング時間を1.9\times$削減できる。
6.1\times$ reduceは、RSSトレーニングのエポック数が減少すると、適切なパフォーマンスの低下でも達成できる。
コードはhttps://github.com/jordan-hs/rss-interference-cvprw2022。
関連論文リスト
- Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training [2.895034191799291]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10, CIFAR-100, Tiny Imagenet で得られた結果から, ディープネットワークにおける接続の50%を, 1%の分類精度で除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Binary Early-Exit Network for Adaptive Inference on Low-Resource Devices [3.591566487849146]
バイナリニューラルネットワーク(BNN)は、実数値モデルと比較して、極端な圧縮とスピードアップによる問題に対処する。
そこで本研究では,BNNを早期導入戦略で統合して推論を高速化する,シンプルだが効果的な手法を提案する。
このアプローチでは、決定しきい値に基づいて単純なインスタンスを早期に終了させ、異なる中間層に追加される出力層を利用してバイナリモデル全体の実行を回避する。
論文 参考訳(メタデータ) (2022-06-17T22:11:11Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Extracting Effective Subnetworks with Gumebel-Softmax [9.176056742068813]
我々は、より大規模な未訓練の作業から効果的な作業作業場を抽出できる別の作業方法を提案する。
本手法は, Gumbel Softmax を用いた様々なトポロジーを探索し, 抽出する。
結果として得られた作業は、トレーニング時間を短縮し、パフォーマンスを改善する、非常に効率的な再スケーリングメカニズムを使用してさらに強化される。
論文 参考訳(メタデータ) (2022-02-25T21:31:30Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Pi-NAS: Improving Neural Architecture Search by Reducing Supernet
Training Consistency Shift [128.32670289503025]
最近提案されたニューラルアーキテクチャサーチ (NAS) 手法は,スーパーネット上で数十億のアーキテクチャを共存させ,その潜在的な精度を推定する。
アーキテクチャの予測精度と実際の能力のランキング相関は誤りであり、既存のNAS手法のジレンマを引き起こす。
このランク付け相関問題は,特徴シフトやパラメータシフトを含む,スーパーネットトレーニングの整合性シフトに起因している。
この2つのシフトを、Pi-NASと呼ばれる非自明なスーパーネットPiモデルを用いて同時に解決する。
論文 参考訳(メタデータ) (2021-08-22T09:08:48Z) - Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning [34.27089256930098]
本稿では,与えられたタスクに対して最適な事前学習ネットワークを検索するニューラルネットワーク検索手法を提案する。
データセットとネットワークとの類似性を最大化するために、コントラスト損失を伴うクロスモーダルな潜在空間をメタラーニングすることによって、このフレームワークを訓練する。
提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。
論文 参考訳(メタデータ) (2021-03-02T06:30:51Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。