論文の概要: When Ensembling Smaller Models is More Efficient than Single Large
Models
- arxiv url: http://arxiv.org/abs/2005.00570v1
- Date: Fri, 1 May 2020 18:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:43:35.068190
- Title: When Ensembling Smaller Models is More Efficient than Single Large
Models
- Title(参考訳): 小型モデルの組み立ては単一大モデルよりも効率的である
- Authors: Dan Kondratyuk, Mingxing Tan, Matthew Brown, and Boqing Gong
- Abstract要約: アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
- 参考スコア(独自算出の注目度): 52.38997176317532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembling is a simple and popular technique for boosting evaluation
performance by training multiple models (e.g., with different initializations)
and aggregating their predictions. This approach is commonly reserved for the
largest models, as it is commonly held that increasing the model size provides
a more substantial reduction in error than ensembling smaller models. However,
we show results from experiments on CIFAR-10 and ImageNet that ensembles can
outperform single models with both higher accuracy and requiring fewer total
FLOPs to compute, even when those individual models' weights and
hyperparameters are highly optimized. Furthermore, this gap in improvement
widens as models become large. This presents an interesting observation that
output diversity in ensembling can often be more efficient than training larger
models, especially when the models approach the size of what their dataset can
foster. Instead of using the common practice of tuning a single large model,
one can use ensembles as a more flexible trade-off between a model's inference
speed and accuracy. This also potentially eases hardware design, e.g., an
easier way to parallelize the model across multiple workers for real-time or
distributed inference.
- Abstract(参考訳): ensemblingは、複数のモデル(例えば、異なる初期化)をトレーニングし、それらの予測を集約することで、評価パフォーマンスを高めるためのシンプルで人気のあるテクニックである。
このアプローチは一般に最大のモデルに限られており、モデルのサイズが大きくなることで、より小さなモデルを組み立てるよりもエラーが大幅に減少すると考えられている。
しかし,CIFAR-10 と ImageNet を用いた実験の結果,個々のモデルの重みやハイパーパラメータが高度に最適化された場合でも,アンサンブルは高い精度で単一モデルより優れ,計算に要する総FLOPは少ないことがわかった。
さらに、モデルが大きくなるにつれて、改善のギャップが拡大する。
これは、特にモデルがデータセットが生み出すサイズに近づくと、アンサンブルの出力の多様性がより大きなモデルをトレーニングするよりも効率的になる、という興味深い観察結果を示す。
単一の大きなモデルをチューニングする一般的なプラクティスの代わりに、モデルの推論速度と精度の間のより柔軟なトレードオフとしてアンサンブルを使用することができる。
これはまた、ハードウェア設計を容易にし、例えば、リアルタイムまたは分散推論のために複数のワーカー間でモデルを並列化する簡単な方法である。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。