論文の概要: Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time
- arxiv url: http://arxiv.org/abs/2203.05482v1
- Date: Thu, 10 Mar 2022 17:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:15:43.469678
- Title: Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time
- Title(参考訳): モデルスープ:複数の微調整モデルの平均重量は推論時間を増やすことなく精度を向上させる
- Authors: Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca
Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali
Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt
- Abstract要約: 複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
- 参考スコア(独自算出の注目度): 69.7693300927423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional recipe for maximizing model accuracy is to (1) train
multiple models with various hyperparameters and (2) pick the individual model
which performs best on a held-out validation set, discarding the remainder. In
this paper, we revisit the second step of this procedure in the context of
fine-tuning large pre-trained models, where fine-tuned models often appear to
lie in a single low error basin. We show that averaging the weights of multiple
models fine-tuned with different hyperparameter configurations often improves
accuracy and robustness. Unlike a conventional ensemble, we may average many
models without incurring any additional inference or memory costs -- we call
the results "model soups." When fine-tuning large pre-trained models such as
CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides
significant improvements over the best model in a hyperparameter sweep on
ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1
accuracy on ImageNet, a new state of the art. Furthermore, we show that the
model soup approach extends to multiple image classification and natural
language processing tasks, improves out-of-distribution performance, and
improves zero-shot performance on new downstream tasks. Finally, we
analytically relate the performance similarity of weight-averaging and
logit-ensembling to flatness of the loss and confidence of the predictions, and
validate this relation empirically.
- Abstract(参考訳): モデル精度を最大化するための従来のレシピは、(1)様々なハイパーパラメーターで複数のモデルを訓練し、(2)保持された検証セット上で最良となる個別モデルを選定し、残りのモデルを破棄する。
本稿では,この手順の2番目のステップを,細調整されたモデルが単一の低誤差境界内にあるように見えるような,大規模事前学習モデルの文脈で再考する。
異なるパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度とロバスト性が向上することを示す。
従来のアンサンブルとは異なり、追加の推論やメモリコストを伴わずに、平均的な多くのモデルを作ることができます。
CLIP, ALIGN, およびJFTで事前学習したViT-Gなどの大規模事前学習モデルの微調整を行うと, スープレシピはImageNetのハイパーパラメータスイープにおいて, 最高のモデルよりも大幅に改善される。
ハイライトとして、結果のViT-Gモデルは、新しい最先端であるImageNetで90.94%のトップ1精度を達成した。
さらに,モデルスープアプローチが複数の画像分類や自然言語処理タスクに拡張され,分散性能が向上し,新しい下流タスクにおけるゼロショット性能が向上することを示す。
最後に,重量平均とロジットセンシングの性能の類似性を,予測の損失と信頼性の平坦性に分析的に関連付け,経験的に検証する。
関連論文リスト
- Do the Frankenstein, or how to achieve better out-of-distribution
performance with manifold mixing model soup [1.0878040851637998]
画像分類のためのCLIPモデルを微調整すると, 融合モデルにより分配性能が大幅に向上することを示す。
また、ファインタニングが行われた元のデータセットに対して、より正確な精度を提供する。
論文 参考訳(メタデータ) (2023-08-28T06:13:32Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Diverse Imagenet Models Transfer Better [10.6046072921331]
モデルにより学習される特徴の多様さは、画像ネットの精度と共同で転送可能性を促進することを示す。
本稿では,自己教師と教師付き事前学習を組み合わせたモデル生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T21:26:58Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model Compression for Domain Adaptation through Causal Effect Estimation [20.842938440720303]
ATE誘導モデル圧縮スキーム(AMoC)は、除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。
次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。
AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3%以上多い。
論文 参考訳(メタデータ) (2021-01-18T14:18:02Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。