論文の概要: Collegial Ensembles
- arxiv url: http://arxiv.org/abs/2006.07678v2
- Date: Wed, 17 Jun 2020 15:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:41:33.884076
- Title: Collegial Ensembles
- Title(参考訳): Collegial Ensembles
- Authors: Etai Littwin and Ben Myara and Sima Sabah and Joshua Susskind and
Shuangfei Zhai and Oren Golan
- Abstract要約: 我々は,群畳み込みと対角線ブロックを用いた実用的アーキテクチャにおいて,コレギアルアンサンブルを効率的に実装可能であることを示す。
また、一つのモデルをトレーニングすることなく、最適なグループ畳み込みモジュールを解析的に導き出すために、我々のフレームワークをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 11.64359837358763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural network performance typically improves as model size increases.
A recent line of research on the Neural Tangent Kernel (NTK) of
over-parameterized networks indicates that the improvement with size increase
is a product of a better conditioned loss landscape. In this work, we
investigate a form of over-parameterization achieved through ensembling, where
we define collegial ensembles (CE) as the aggregation of multiple independent
models with identical architectures, trained as a single model. We show that
the optimization dynamics of CE simplify dramatically when the number of models
in the ensemble is large, resembling the dynamics of wide models, yet scale
much more favorably. We use recent theoretical results on the finite width
corrections of the NTK to perform efficient architecture search in a space of
finite width CE that aims to either minimize capacity, or maximize trainability
under a set of constraints. The resulting ensembles can be efficiently
implemented in practical architectures using group convolutions and block
diagonal layers. Finally, we show how our framework can be used to analytically
derive optimal group convolution modules originally found using expensive grid
searches, without having to train a single model.
- Abstract(参考訳): 現代のニューラルネットワークの性能は、モデルのサイズが大きくなるにつれて改善される。
過パラメータ化されたネットワークのニューラルタンジェントカーネル(NTK)に関する最近の研究は、サイズ増加による改善が、より良い条件付きロスランドスケープの産物であることを示している。
本研究では,単一モデルとして訓練された同一のアーキテクチャを持つ複数の独立モデルの集合としてコレージアルアンサンブル (ce) を定義する。
その結果,アンサンブル内のモデル数が大きければ,ceの最適化ダイナミクスは劇的に単純化され,広いモデルのダイナミクスに似ているが,スケール性ははるかに高いことがわかった。
我々はNTKの有限幅補正に関する最近の理論的結果を用いて、容量を最小化するか、制約セットのトレーニング可能性の最大化を目的とした、有限幅CEの空間における効率的なアーキテクチャ探索を行う。
結果として得られるアンサンブルは、グループ畳み込みとブロック対角層を用いて実用的なアーキテクチャで効率的に実装することができる。
最後に、当社のフレームワークを用いて、1つのモデルをトレーニングすることなく、もともと高価なグリッドサーチを用いて見つかった最適なグループ畳み込みモジュールを解析的に導出する方法を示す。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Autoselection of the Ensemble of Convolutional Neural Networks with
Second-Order Cone Programming [0.8029049649310213]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを推定する数学的モデルを提案する。
提案手法は, CIFAR-10, CIFAR-100 および MNIST データセットで検証される。
論文 参考訳(メタデータ) (2023-02-12T16:18:06Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Embedded Ensembles: Infinite Width Limit and Operating Regimes [15.940871041126453]
アンサンブルニューラルネットワークに対するメモリ効率のよいアプローチは、単一の参照ネットワークを用いて、アンサンブルされたモデル間でほとんどの重みを共有することである。
私たちはこの戦略をEmbedded Ensembling (EE)と呼び、その具体的な例はBatchEnsemblesとMonte-Carloのドロップアウトアンサンブルである。
論文 参考訳(メタデータ) (2022-02-24T18:55:41Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。