論文の概要: Deep Ensembles on a Fixed Memory Budget: One Wide Network or Several
Thinner Ones?
- arxiv url: http://arxiv.org/abs/2005.07292v1
- Date: Thu, 14 May 2020 23:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:28:40.899825
- Title: Deep Ensembles on a Fixed Memory Budget: One Wide Network or Several
Thinner Ones?
- Title(参考訳): 固定メモリ予算のディープアンサンブル:1つのネットワークか、より薄いものか?
- Authors: Nadezhda Chirkova, Ekaterina Lobacheva, Dmitry Vetrov
- Abstract要約: パラメータ数を増やすための最も簡単な方法は、ネットワークのサイズを増やすことである。
より効果的なものは、単一のワイドネットワークをトレーニングするか、メモリ分割を実行するかである。
十分な予算で、最適なメモリ分割に対応するアンサンブル内のネットワーク数は、通常1より大きいことが分かる。
- 参考スコア(独自算出の注目度): 13.028716493611787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the generally accepted views of modern deep learning is that
increasing the number of parameters usually leads to better quality. The two
easiest ways to increase the number of parameters is to increase the size of
the network, e.g. width, or to train a deep ensemble; both approaches improve
the performance in practice. In this work, we consider a fixed memory budget
setting, and investigate, what is more effective: to train a single wide
network, or to perform a memory split -- to train an ensemble of several
thinner networks, with the same total number of parameters? We find that, for
large enough budgets, the number of networks in the ensemble, corresponding to
the optimal memory split, is usually larger than one. Interestingly, this
effect holds for the commonly used sizes of the standard architectures. For
example, one WideResNet-28-10 achieves significantly worse test accuracy on
CIFAR-100 than an ensemble of sixteen thinner WideResNets: 80.6% and 82.52%
correspondingly. We call the described effect the Memory Split Advantage and
show that it holds for a variety of datasets and model architectures.
- Abstract(参考訳): 現代のディープラーニングの一般的に受け入れられている見解の1つは、パラメータの数を増やすと一般的に品質が向上するということである。
パラメータ数を増やすための最も簡単な2つの方法は、例えば、幅や深層アンサンブルのトレーニングなど、ネットワークのサイズを増やすことである。
この作業では、固定メモリの予算設定を検討し、より効果的なのは、単一のワイドネットワークをトレーニングするか、またはメモリ分割を実行し、同じ数のパラメータで、より薄いネットワークのアンサンブルをトレーニングすることです。
十分な予算で、最適なメモリ分割に対応するアンサンブル内のネットワークの数は、通常1より大きいことが分かる。
興味深いことに、この効果は標準アーキテクチャの一般的なサイズに当てはまる。
例えば、WideResNet-28-10は16個のWideResNetのアンサンブル(80.6%と82.52%)よりもCIFAR-100の試験精度がかなり悪い。
前述の効果をメモリ分割アドバンテージと呼び、さまざまなデータセットとモデルアーキテクチャを保持できることを示します。
関連論文リスト
- Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。
これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文 参考訳(メタデータ) (2023-12-03T04:20:02Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Condensation-Net: Memory-Efficient Network Architecture with
Cross-Channel Pooling Layers and Virtual Feature Maps [28.992851280809205]
特徴マップのメモリ容量を最大化することなく,特定のネットワークアーキテクチャ(コンデンセーションネット)を処理するアルゴリズムを提案する。
クロスチャネルプーリングは、顔検出などのオブジェクト検出タスクの精度を向上させることができる。
提案するハードウェアアーキテクチャでクロスチャネルプーリングをサポートするオーバーヘッドは無視できるほど小さい。
論文 参考訳(メタデータ) (2021-04-29T05:44:02Z) - Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training [24.586453683904487]
ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。
小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
論文 参考訳(メタデータ) (2020-11-30T10:03:34Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - One Weight Bitwidth to Rule Them All [24.373061354080825]
ネットワーク全体に対して1ビット幅を使用すると、混合精度の量子化よりも精度がよいことを示す。
この結果から,チャネル数が対象のハイパーパラメータとなると,ネットワーク全体のシングルウェイトビット幅がモデル圧縮に優れた結果を示すことが示唆された。
論文 参考訳(メタデータ) (2020-08-22T21:40:22Z) - On Power Laws in Deep Ensembles [12.739425443572202]
1つの大きなネットワークは、同じ数のパラメータを持つ複数の中規模ネットワークのアンサンブルよりも性能が悪くなる可能性があることを示す。
検出された電力法則的依存関係を用いて、所定の構造を持つネットワークの集合から得られる利益を予測することができる。
論文 参考訳(メタデータ) (2020-07-16T17:35:32Z) - Splitting Convolutional Neural Network Structures for Efficient
Inference [11.031841470875571]
ネットワーク構造を、元のネットワークよりも少ないメモリを消費する小さな部分に分割する手法が提案されている。
この分割手法は、CIFAR10画像の分類のために、VGG16とResNet18のよく知られた2つのネットワーク構造でテストされている。
論文 参考訳(メタデータ) (2020-02-09T06:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。