論文の概要: Collegial Ensembles
- arxiv url: http://arxiv.org/abs/2006.07678v2
- Date: Wed, 17 Jun 2020 15:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:41:33.884076
- Title: Collegial Ensembles
- Title(参考訳): Collegial Ensembles
- Authors: Etai Littwin and Ben Myara and Sima Sabah and Joshua Susskind and
Shuangfei Zhai and Oren Golan
- Abstract要約: 我々は,群畳み込みと対角線ブロックを用いた実用的アーキテクチャにおいて,コレギアルアンサンブルを効率的に実装可能であることを示す。
また、一つのモデルをトレーニングすることなく、最適なグループ畳み込みモジュールを解析的に導き出すために、我々のフレームワークをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 11.64359837358763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural network performance typically improves as model size increases.
A recent line of research on the Neural Tangent Kernel (NTK) of
over-parameterized networks indicates that the improvement with size increase
is a product of a better conditioned loss landscape. In this work, we
investigate a form of over-parameterization achieved through ensembling, where
we define collegial ensembles (CE) as the aggregation of multiple independent
models with identical architectures, trained as a single model. We show that
the optimization dynamics of CE simplify dramatically when the number of models
in the ensemble is large, resembling the dynamics of wide models, yet scale
much more favorably. We use recent theoretical results on the finite width
corrections of the NTK to perform efficient architecture search in a space of
finite width CE that aims to either minimize capacity, or maximize trainability
under a set of constraints. The resulting ensembles can be efficiently
implemented in practical architectures using group convolutions and block
diagonal layers. Finally, we show how our framework can be used to analytically
derive optimal group convolution modules originally found using expensive grid
searches, without having to train a single model.
- Abstract(参考訳): 現代のニューラルネットワークの性能は、モデルのサイズが大きくなるにつれて改善される。
過パラメータ化されたネットワークのニューラルタンジェントカーネル(NTK)に関する最近の研究は、サイズ増加による改善が、より良い条件付きロスランドスケープの産物であることを示している。
本研究では,単一モデルとして訓練された同一のアーキテクチャを持つ複数の独立モデルの集合としてコレージアルアンサンブル (ce) を定義する。
その結果,アンサンブル内のモデル数が大きければ,ceの最適化ダイナミクスは劇的に単純化され,広いモデルのダイナミクスに似ているが,スケール性ははるかに高いことがわかった。
我々はNTKの有限幅補正に関する最近の理論的結果を用いて、容量を最小化するか、制約セットのトレーニング可能性の最大化を目的とした、有限幅CEの空間における効率的なアーキテクチャ探索を行う。
結果として得られるアンサンブルは、グループ畳み込みとブロック対角層を用いて実用的なアーキテクチャで効率的に実装することができる。
最後に、当社のフレームワークを用いて、1つのモデルをトレーニングすることなく、もともと高価なグリッドサーチを用いて見つかった最適なグループ畳み込みモジュールを解析的に導出する方法を示す。
関連論文リスト
- Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for
Large Language Models [1.8673970128645236]
KENはカーネル密度推定(KDE)に基づく単純で普遍的で非構造化プルーニングアルゴリズムである
KENは、最適化されたトランスフォーマーモデルを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。
他のプルーニングアルゴリズムとPEFTアルゴリズムとの深い比較により、KENの有効性が確認された。
論文 参考訳(メタデータ) (2024-02-05T16:11:43Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Autoselection of the Ensemble of Convolutional Neural Networks with
Second-Order Cone Programming [0.8029049649310213]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを推定する数学的モデルを提案する。
提案手法は, CIFAR-10, CIFAR-100 および MNIST データセットで検証される。
論文 参考訳(メタデータ) (2023-02-12T16:18:06Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Embedded Ensembles: Infinite Width Limit and Operating Regimes [15.940871041126453]
アンサンブルニューラルネットワークに対するメモリ効率のよいアプローチは、単一の参照ネットワークを用いて、アンサンブルされたモデル間でほとんどの重みを共有することである。
私たちはこの戦略をEmbedded Ensembling (EE)と呼び、その具体的な例はBatchEnsemblesとMonte-Carloのドロップアウトアンサンブルである。
論文 参考訳(メタデータ) (2022-02-24T18:55:41Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。