論文の概要: No Free Lunch From Random Feature Ensembles: Scaling Laws and Near-Optimality Conditions
- arxiv url: http://arxiv.org/abs/2412.05418v2
- Date: Sat, 25 Oct 2025 20:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.330033
- Title: No Free Lunch From Random Feature Ensembles: Scaling Laws and Near-Optimality Conditions
- Title(参考訳): ランダムな特徴アンサンブルからのフリーランチ:法則のスケーリングと準最適条件
- Authors: Benjamin S. Ruben, William L. Tong, Hamza Tahir Chaudhry, Cengiz Pehlevan,
- Abstract要約: 総モデルサイズの固定予算が与えられた場合、1つの大きなモデルをトレーニングするか、または複数のより小さなモデルの予測を組み合わせるかを選択する必要がある。
固定数のパラメータが独立に訓練されたモデルに分散すると、リッジ最適化テストのリスクは$K$で増加する。
次に、アンサンブルがテクテニア最適のパフォーマンスをいつ達成できるかを尋ねる。
- 参考スコア(独自算出の注目度): 33.21599217370897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a fixed budget for total model size, one must choose between training a single large model or combining the predictions of multiple smaller models. We investigate this trade-off for ensembles of random-feature ridge regression models in both the overparameterized and underparameterized regimes. Using deterministic equivalent risk estimates, we prove that when a fixed number of parameters is distributed among $K$ independently trained models, the ridge-optimized test risk increases with $K$. Consequently, a single large model achieves optimal performance. We then ask when ensembles can achieve \textit{near}-optimal performance. In the overparameterized regime, we show that, to leading order, the test error depends on ensemble size and model size only through the total feature count, so that overparameterized ensembles consistently achieve near-optimal performance. To understand underparameterized ensembles, we derive scaling laws for the test risk as a function of total parameter count when the ensemble size and parameters per ensemble member are jointly scaled according to a ``growth exponent'' $\ell$. While the optimal error scaling is always achieved by increasing model size with a fixed ensemble size, our analysis identifies conditions on the kernel and task eigenstructure under which near-optimal scaling laws can be obtained by joint scaling of ensemble size and model size.
- Abstract(参考訳): 総モデルサイズの固定予算が与えられた場合、1つの大きなモデルをトレーニングするか、または複数のより小さなモデルの予測を組み合わせるかを選択する必要がある。
本研究では, 過パラメータ化と過パラメータ化の両方において, ランダム・フューチャー・リッジ回帰モデルのアンサンブルのトレードオフについて検討する。
決定論的等価リスク推定を用いて、固定数のパラメータが独立に訓練されたモデルに分散された場合、リッジ最適化テストリスクは$K$で増加することを証明した。
その結果、1つの大きなモデルが最適な性能を達成する。
次に、アンサンブルが \textit{near}-Optimal performance をいつ達成できるかを問う。
オーバーパラメータ化方式では、先行順に、テスト誤差がアンサンブルサイズとモデルサイズにのみ依存し、オーバーパラメータ化アンサンブルが常にほぼ最適性能を達成することを示す。
アンサンブルサイズとアンサンブルメンバー毎のパラメータを ` `growth exponent'' $\ell$' に従って共同スケールした場合に,全パラメータカウントの関数としてテストリスクのスケーリング法則を導出する。
最適誤差スケーリングは,固定アンサンブルサイズでモデルサイズを増大させることで常に達成されるが,本分析では,アンサンブルサイズとモデルサイズの共同スケーリングにより,ほぼ最適スケーリング法則が得られるカーネル上の条件とタスク固有構造を同定する。
関連論文リスト
- MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。
小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文 参考訳(メタデータ) (2023-03-27T04:14:30Z) - Autoselection of the Ensemble of Convolutional Neural Networks with
Second-Order Cone Programming [0.8029049649310213]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを推定する数学的モデルを提案する。
提案手法は, CIFAR-10, CIFAR-100 および MNIST データセットで検証される。
論文 参考訳(メタデータ) (2023-02-12T16:18:06Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - AutoDEUQ: Automated Deep Ensemble with Uncertainty Quantification [0.9449650062296824]
本稿では,深層ニューラルネットワークのアンサンブルを生成するための自動アプローチであるAutoDEUQを提案する。
我々は,AutoDEUQが確率論的バックプロパゲーション,モンテカルロのドロップアウト,ディープアンサンブル,分布自由アンサンブル,ハイパーアンサンブルメソッドを多くの回帰ベンチマークで上回ることを示す。
論文 参考訳(メタデータ) (2021-10-26T09:12:23Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。