論文の概要: Learning to Weight Samples for Dynamic Early-exiting Networks
- arxiv url: http://arxiv.org/abs/2209.08310v1
- Date: Sat, 17 Sep 2022 10:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:01:30.838888
- Title: Learning to Weight Samples for Dynamic Early-exiting Networks
- Title(参考訳): 動的アーリーエグジットネットワークのための重み付け学習
- Authors: Yizeng Han, Yifan Pu, Zihang Lai, Chaofei Wang, Shiji Song, Junfen
Cao, Wenhui Huang, Chao Deng, Gao Huang
- Abstract要約: 早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 35.03752825893429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early exiting is an effective paradigm for improving the inference efficiency
of deep networks. By constructing classifiers with varying resource demands
(the exits), such networks allow easy samples to be output at early exits,
removing the need for executing deeper layers. While existing works mainly
focus on the architectural design of multi-exit networks, the training
strategies for such models are largely left unexplored. The current
state-of-the-art models treat all samples the same during training. However,
the early-exiting behavior during testing has been ignored, leading to a gap
between training and testing. In this paper, we propose to bridge this gap by
sample weighting. Intuitively, easy samples, which generally exit early in the
network during inference, should contribute more to training early classifiers.
The training of hard samples (mostly exit from deeper layers), however, should
be emphasized by the late classifiers. Our work proposes to adopt a weight
prediction network to weight the loss of different training samples at each
exit. This weight prediction network and the backbone model are jointly
optimized under a meta-learning framework with a novel optimization objective.
By bringing the adaptive behavior during inference into the training phase, we
show that the proposed weighting mechanism consistently improves the trade-off
between classification accuracy and inference efficiency. Code is available at
https://github.com/LeapLabTHU/L2W-DEN.
- Abstract(参考訳): 早期終了は、ディープネットワークの推論効率を改善する効果的なパラダイムである。
リソース要求の異なる分類器(出口)を構築することで、そのようなネットワークは早期出口で容易にサンプルを出力でき、より深い層を実行する必要がなくなる。
既存の研究は主にマルチエグジットネットワークのアーキテクチャ設計に焦点を当てているが、そのようなモデルのトレーニング戦略は明らかにされていない。
現在の最先端モデルは、トレーニング中にすべてのサンプルを扱います。
しかし、テストの初期段階の振る舞いは無視され、トレーニングとテストの間にギャップが生じた。
本稿では,サンプル重み付けによりこのギャップを埋めることを提案する。
直感的には、推論中に一般的にネットワークの早期から出る簡単なサンプルは、早期分類器の訓練にもっと貢献するだろう。
しかし、ハードサンプルのトレーニング(主に深い層から出る)は、後期分類器によって強調されるべきである。
本研究は,各出口における異なるトレーニングサンプルの損失を重み付けする重み予測ネットワークの採用を提案する。
この重み予測ネットワークとバックボーンモデルは、新しい最適化目標を持つメタラーニングフレームワークの下で共同最適化される。
提案する重み付け機構は,推論中の適応動作をトレーニングフェーズに持ち込むことにより,分類精度と推論効率のトレードオフを一貫して改善することを示す。
コードはhttps://github.com/LeapLabTHU/L2W-DENで入手できる。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Large Deviations for Accelerating Neural Networks Training [5.864710987890994]
LAD改良反復訓練(LIIT)は,大規模な逸脱原理を用いたANNのための新しい訓練手法である。
LIITアプローチでは、LAD異常スコアに基づくサンプリング戦略を用いて、MTS(Modified Training Sample)を生成し、反復的に更新する。
MTSサンプルは、各クラスにおける観察のほとんどを異常に含めることで、トレーニングデータをうまく表現するように設計されている。
論文 参考訳(メタデータ) (2023-03-02T04:14:05Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - How much pre-training is enough to discover a good subnetwork? [10.699603774240853]
刈り取られたネットワークが正常に動作するために必要となる高密度ネットワーク事前学習の量を数学的に解析する。
2層全接続ネットワーク上での勾配降下事前学習の回数の単純な理論的境界を求める。
より大きなデータセットでの実験では、プルーニングによって得られた事前トレーニングのフォアワークがうまく機能するために必要になる。
論文 参考訳(メタデータ) (2021-07-31T15:08:36Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。