Fugu-MT 論文翻訳(概要): No Free Lunch From Random Feature Ensembles

論文の概要: No Free Lunch From Random Feature Ensembles

arxiv url: http://arxiv.org/abs/2412.05418v1
Date: Fri, 06 Dec 2024 20:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.830349
Title: No Free Lunch From Random Feature Ensembles
Title（参考訳）: ランダム機能アンサンブルからフリーランチなし
Authors: Benjamin S. Ruben, William L. Tong, Hamza Tahir Chaudhry, Cengiz Pehlevan,
Abstract要約: モデル全体のサイズに関する予算が与えられた場合、単一の大きなニューラルネットワークをトレーニングするか、あるいは多数の小さなネットワークの予測を組み合わせるかを判断する必要がある。トレーニング可能なパラメータの固定数が、独立に訓練されたモデルで$K$に分割された場合、$K=1$が最適な性能を達成することを証明した。カーネルおよびタスク固有構造上の条件を特定し、アンサンブルがほぼ最適スケーリング法則を達成できることを示す。
参考スコア（独自算出の注目度）: 23.661623767100384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a budget on total model size, one must decide whether to train a single, large neural network or to combine the predictions of many smaller networks. We study this trade-off for ensembles of random-feature ridge regression models. We prove that when a fixed number of trainable parameters are partitioned among $K$ independently trained models, $K=1$ achieves optimal performance, provided the ridge parameter is optimally tuned. We then derive scaling laws which describe how the test risk of an ensemble of regression models decays with its total size. We identify conditions on the kernel and task eigenstructure under which ensembles can achieve near-optimal scaling laws. Training ensembles of deep convolutional neural networks on CIFAR-10 and a transformer architecture on C4, we find that a single large network outperforms any ensemble of networks with the same total number of parameters, provided the weight decay and feature-learning strength are tuned to their optimal values.
Abstract（参考訳）: モデル全体のサイズに関する予算が与えられた場合、単一の大きなニューラルネットワークをトレーニングするか、あるいは多数の小さなネットワークの予測を組み合わせるかを判断する必要がある。本研究では,ランダム・フィーチャー・リッジ回帰モデルのアンサンブルに対するトレードオフについて検討する。訓練可能なパラメータの固定数が独立に訓練されたモデルに分割された場合、リッジパラメータが最適に調整された場合、$K=1$が最適性能を達成することを証明した。次に、回帰モデルの集合のテストリスクが、その全サイズでどのように崩壊するかを記述するスケーリング法則を導出する。カーネルおよびタスク固有構造上の条件を特定し、アンサンブルがほぼ最適スケーリング法則を達成できることを示す。 CIFAR-10 上での深層畳み込みニューラルネットワークのアンサンブルと C4 上でのトランスフォーマーアーキテクチャの訓練により,最大数のパラメータを持つネットワークのアンサンブルを1つの大きなネットワークが上回っていることがわかった。

関連論文リスト

MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。 MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文参考訳（メタデータ） (2024-08-24T05:54:47Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文参考訳（メタデータ） (2023-03-27T04:14:30Z)
Autoselection of the Ensemble of Convolutional Neural Networks with Second-Order Cone Programming [0.8029049649310213]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを推定する数学的モデルを提案する。提案手法は, CIFAR-10, CIFAR-100 および MNIST データセットで検証される。
論文参考訳（メタデータ） (2023-02-12T16:18:06Z)
Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文参考訳（メタデータ） (2022-02-03T00:05:08Z)
AutoDEUQ: Automated Deep Ensemble with Uncertainty Quantification [0.9449650062296824]
本稿では,深層ニューラルネットワークのアンサンブルを生成するための自動アプローチであるAutoDEUQを提案する。我々は,AutoDEUQが確率論的バックプロパゲーション,モンテカルロのドロップアウト,ディープアンサンブル,分布自由アンサンブル,ハイパーアンサンブルメソッドを多くの回帰ベンチマークで上回ることを示す。
論文参考訳（メタデータ） (2021-10-26T09:12:23Z)
A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文参考訳（メタデータ） (2020-10-08T18:24:12Z)
ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文参考訳（メタデータ） (2020-09-04T20:41:47Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。