Fugu-MT 論文翻訳(概要): When Ensembling Smaller Models is More Efficient than Single Large Models

論文の概要: When Ensembling Smaller Models is More Efficient than Single Large Models

arxiv url: http://arxiv.org/abs/2005.00570v1
Date: Fri, 1 May 2020 18:56:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 22:43:35.068190
Title: When Ensembling Smaller Models is More Efficient than Single Large Models
Title（参考訳）: 小型モデルの組み立ては単一大モデルよりも効率的である
Authors: Dan Kondratyuk, Mingxing Tan, Matthew Brown, and Boqing Gong
Abstract要約: アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
参考スコア（独自算出の注目度）: 52.38997176317532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensembling is a simple and popular technique for boosting evaluation performance by training multiple models (e.g., with different initializations) and aggregating their predictions. This approach is commonly reserved for the largest models, as it is commonly held that increasing the model size provides a more substantial reduction in error than ensembling smaller models. However, we show results from experiments on CIFAR-10 and ImageNet that ensembles can outperform single models with both higher accuracy and requiring fewer total FLOPs to compute, even when those individual models' weights and hyperparameters are highly optimized. Furthermore, this gap in improvement widens as models become large. This presents an interesting observation that output diversity in ensembling can often be more efficient than training larger models, especially when the models approach the size of what their dataset can foster. Instead of using the common practice of tuning a single large model, one can use ensembles as a more flexible trade-off between a model's inference speed and accuracy. This also potentially eases hardware design, e.g., an easier way to parallelize the model across multiple workers for real-time or distributed inference.
Abstract（参考訳）: ensemblingは、複数のモデル(例えば、異なる初期化)をトレーニングし、それらの予測を集約することで、評価パフォーマンスを高めるためのシンプルで人気のあるテクニックである。このアプローチは一般に最大のモデルに限られており、モデルのサイズが大きくなることで、より小さなモデルを組み立てるよりもエラーが大幅に減少すると考えられている。しかし,CIFAR-10 と ImageNet を用いた実験の結果,個々のモデルの重みやハイパーパラメータが高度に最適化された場合でも,アンサンブルは高い精度で単一モデルより優れ,計算に要する総FLOPは少ないことがわかった。さらに、モデルが大きくなるにつれて、改善のギャップが拡大する。これは、特にモデルがデータセットが生み出すサイズに近づくと、アンサンブルの出力の多様性がより大きなモデルをトレーニングするよりも効率的になる、という興味深い観察結果を示す。単一の大きなモデルをチューニングする一般的なプラクティスの代わりに、モデルの推論速度と精度の間のより柔軟なトレードオフとしてアンサンブルを使用することができる。これはまた、ハードウェア設計を容易にし、例えば、リアルタイムまたは分散推論のために複数のワーカー間でモデルを並列化する簡単な方法である。

関連論文リスト

Bi-directional Model Cascading with Proxy Confidence [3.1890398692194326]
本稿では,カスケード内の小型モデルと大規模モデルの信頼性を同時に考慮した,双方向なdeferralアプローチを提案する。隠れ状態の分析を用いて、小型モデルの起動後信頼性を向上させる。次に、これを小さなプロキシモデルと組み合わせて、大規模なモデルの起動前信頼性を推定します。
論文参考訳（メタデータ） (2025-04-27T23:48:14Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-04-13T19:54:51Z)
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文参考訳（メタデータ） (2022-03-10T17:03:49Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。