Fugu-MT 論文翻訳(概要): Deep Ensembles on a Fixed Memory Budget: One Wide Network or Several Thinner Ones?

論文の概要: Deep Ensembles on a Fixed Memory Budget: One Wide Network or Several Thinner Ones?

arxiv url: http://arxiv.org/abs/2005.07292v1
Date: Thu, 14 May 2020 23:08:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 04:28:40.899825
Title: Deep Ensembles on a Fixed Memory Budget: One Wide Network or Several Thinner Ones?
Title（参考訳）: 固定メモリ予算のディープアンサンブル:1つのネットワークか、より薄いものか?
Authors: Nadezhda Chirkova, Ekaterina Lobacheva, Dmitry Vetrov
Abstract要約: パラメータ数を増やすための最も簡単な方法は、ネットワークのサイズを増やすことである。より効果的なものは、単一のワイドネットワークをトレーニングするか、メモリ分割を実行するかである。十分な予算で、最適なメモリ分割に対応するアンサンブル内のネットワーク数は、通常1より大きいことが分かる。
参考スコア（独自算出の注目度）: 13.028716493611787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the generally accepted views of modern deep learning is that increasing the number of parameters usually leads to better quality. The two easiest ways to increase the number of parameters is to increase the size of the network, e.g. width, or to train a deep ensemble; both approaches improve the performance in practice. In this work, we consider a fixed memory budget setting, and investigate, what is more effective: to train a single wide network, or to perform a memory split -- to train an ensemble of several thinner networks, with the same total number of parameters? We find that, for large enough budgets, the number of networks in the ensemble, corresponding to the optimal memory split, is usually larger than one. Interestingly, this effect holds for the commonly used sizes of the standard architectures. For example, one WideResNet-28-10 achieves significantly worse test accuracy on CIFAR-100 than an ensemble of sixteen thinner WideResNets: 80.6% and 82.52% correspondingly. We call the described effect the Memory Split Advantage and show that it holds for a variety of datasets and model architectures.
Abstract（参考訳）: 現代のディープラーニングの一般的に受け入れられている見解の1つは、パラメータの数を増やすと一般的に品質が向上するということである。パラメータ数を増やすための最も簡単な2つの方法は、例えば、幅や深層アンサンブルのトレーニングなど、ネットワークのサイズを増やすことである。この作業では、固定メモリの予算設定を検討し、より効果的なのは、単一のワイドネットワークをトレーニングするか、またはメモリ分割を実行し、同じ数のパラメータで、より薄いネットワークのアンサンブルをトレーニングすることです。十分な予算で、最適なメモリ分割に対応するアンサンブル内のネットワークの数は、通常1より大きいことが分かる。興味深いことに、この効果は標準アーキテクチャの一般的なサイズに当てはまる。例えば、WideResNet-28-10は16個のWideResNetのアンサンブル(80.6%と82.52%)よりもCIFAR-100の試験精度がかなり悪い。前述の効果をメモリ分割アドバンテージと呼び、さまざまなデータセットとモデルアーキテクチャを保持できることを示します。

関連論文リスト

UNet--: Memory-Efficient and Feature-Enhanced Network Architecture based on U-Net with Reduced Skip-Connections [9.919381070435525]
エンコーダ、デコーダ、スキップ接続コンポーネントを備えたU-Netモデルは、様々な視覚タスクにおいて有効であることを示す。復号ステージの前に、スキップ接続で使われる特徴マップをメモリ内に保持する必要がある。本稿では,メモリ消費を削減し,ネットワーク性能を向上させるための機能マップを生成する汎用手法とアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-24T08:38:34Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文参考訳（メタデータ） (2023-12-03T04:20:02Z)
Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。 Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。 Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文参考訳（メタデータ） (2022-03-29T03:06:16Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文参考訳（メタデータ） (2021-08-02T08:21:44Z)
Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。 GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文参考訳（メタデータ） (2021-07-31T08:36:30Z)
Condensation-Net: Memory-Efficient Network Architecture with Cross-Channel Pooling Layers and Virtual Feature Maps [28.992851280809205]
特徴マップのメモリ容量を最大化することなく,特定のネットワークアーキテクチャ(コンデンセーションネット)を処理するアルゴリズムを提案する。クロスチャネルプーリングは、顔検出などのオブジェクト検出タスクの精度を向上させることができる。提案するハードウェアアーキテクチャでクロスチャネルプーリングをサポートするオーバーヘッドは無視できるほど小さい。
論文参考訳（メタデータ） (2021-04-29T05:44:02Z)
Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training [24.586453683904487]
ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
論文参考訳（メタデータ） (2020-11-30T10:03:34Z)
Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文参考訳（メタデータ） (2020-10-02T16:50:26Z)
One Weight Bitwidth to Rule Them All [24.373061354080825]
ネットワーク全体に対して1ビット幅を使用すると、混合精度の量子化よりも精度がよいことを示す。この結果から,チャネル数が対象のハイパーパラメータとなると,ネットワーク全体のシングルウェイトビット幅がモデル圧縮に優れた結果を示すことが示唆された。
論文参考訳（メタデータ） (2020-08-22T21:40:22Z)
On Power Laws in Deep Ensembles [12.739425443572202]
1つの大きなネットワークは、同じ数のパラメータを持つ複数の中規模ネットワークのアンサンブルよりも性能が悪くなる可能性があることを示す。検出された電力法則的依存関係を用いて、所定の構造を持つネットワークの集合から得られる利益を予測することができる。
論文参考訳（メタデータ） (2020-07-16T17:35:32Z)
Splitting Convolutional Neural Network Structures for Efficient Inference [11.031841470875571]
ネットワーク構造を、元のネットワークよりも少ないメモリを消費する小さな部分に分割する手法が提案されている。この分割手法は、CIFAR10画像の分類のために、VGG16とResNet18のよく知られた2つのネットワーク構造でテストされている。
論文参考訳（メタデータ） (2020-02-09T06:53:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。