論文の概要: Boosted Dynamic Neural Networks
- arxiv url: http://arxiv.org/abs/2211.16726v1
- Date: Wed, 30 Nov 2022 04:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:03:38.643044
- Title: Boosted Dynamic Neural Networks
- Title(参考訳): ブースト動的ニューラルネットワーク
- Authors: Haichao Yu, Haoxiang Li, Gang Hua, Gao Huang, Humphrey Shi
- Abstract要約: 典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 53.559833501288146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early-exiting dynamic neural networks (EDNN), as one type of dynamic neural
networks, has been widely studied recently. A typical EDNN has multiple
prediction heads at different layers of the network backbone. During inference,
the model will exit at either the last prediction head or an intermediate
prediction head where the prediction confidence is higher than a predefined
threshold. To optimize the model, these prediction heads together with the
network backbone are trained on every batch of training data. This brings a
train-test mismatch problem that all the prediction heads are optimized on all
types of data in training phase while the deeper heads will only see difficult
inputs in testing phase. Treating training and testing inputs differently at
the two phases will cause the mismatch between training and testing data
distributions. To mitigate this problem, we formulate an EDNN as an additive
model inspired by gradient boosting, and propose multiple training techniques
to optimize the model effectively. We name our method BoostNet. Our experiments
show it achieves the state-of-the-art performance on CIFAR100 and ImageNet
datasets in both anytime and budgeted-batch prediction modes. Our code is
released at https://github.com/SHI-Labs/Boosted-Dynamic-Networks.
- Abstract(参考訳): 動的ニューラルネットワークの1つのタイプであるEarly-Exiting Dynamic Neural Network (EDNN)は近年広く研究されている。
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
推論中は、予測信頼度が予め定義された閾値よりも高い最後の予測ヘッドまたは中間予測ヘッドのいずれかでモデルが終了する。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
これにより、すべての予測ヘッドがトレーニングフェーズですべての種類のデータに最適化され、さらに深いヘッドはテストフェーズで難しい入力しか表示されないという、トレインテストミスマッチ問題が発生する。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
この問題を緩和するために,勾配向上にインスパイアされた付加モデルとしてEDNNを定式化し,モデルを効果的に最適化するための複数のトレーニング手法を提案する。
私たちはboostnetメソッドを名付けます。
実験の結果,CIFAR100とImageNetのデータセットのリアルタイムおよび予算付きバッチ予測モードにおける最先端性能が得られた。
私たちのコードはhttps://github.com/SHI-Labs/Boosted-Dynamic-Networks.orgで公開されています。
関連論文リスト
- When do Convolutional Neural Networks Stop Learning? [0.0]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて優れた性能を示した。
現在の実践は、トレーニング損失が減少し、トレーニングと検証エラーの間のギャップが増加すると、トレーニングをやめることである。
この研究は、CNNの変種の全層にわたるデータ変動を分析し、その準最適学習能力を予測する仮説を導入している。
論文 参考訳(メタデータ) (2024-03-04T20:35:09Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - Predicting Neural Network Accuracy from Weights [25.73213712719546]
トレーニングされたニューラルネットワークの精度は、その重みだけを見て驚くほど正確に予測できることを実験的に示す。
この分野のさらなる研究を促進するために、4つの異なるデータセットでトレーニングされた120kの畳み込みニューラルネットワークのコレクションをリリースする。
論文 参考訳(メタデータ) (2020-02-26T13:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。