論文の概要: Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time
- arxiv url: http://arxiv.org/abs/2203.05482v1
- Date: Thu, 10 Mar 2022 17:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:15:43.469678
- Title: Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time
- Title(参考訳): モデルスープ:複数の微調整モデルの平均重量は推論時間を増やすことなく精度を向上させる
- Authors: Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca
Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali
Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt
- Abstract要約: 複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
- 参考スコア(独自算出の注目度): 69.7693300927423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional recipe for maximizing model accuracy is to (1) train
multiple models with various hyperparameters and (2) pick the individual model
which performs best on a held-out validation set, discarding the remainder. In
this paper, we revisit the second step of this procedure in the context of
fine-tuning large pre-trained models, where fine-tuned models often appear to
lie in a single low error basin. We show that averaging the weights of multiple
models fine-tuned with different hyperparameter configurations often improves
accuracy and robustness. Unlike a conventional ensemble, we may average many
models without incurring any additional inference or memory costs -- we call
the results "model soups." When fine-tuning large pre-trained models such as
CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides
significant improvements over the best model in a hyperparameter sweep on
ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1
accuracy on ImageNet, a new state of the art. Furthermore, we show that the
model soup approach extends to multiple image classification and natural
language processing tasks, improves out-of-distribution performance, and
improves zero-shot performance on new downstream tasks. Finally, we
analytically relate the performance similarity of weight-averaging and
logit-ensembling to flatness of the loss and confidence of the predictions, and
validate this relation empirically.
- Abstract(参考訳): モデル精度を最大化するための従来のレシピは、(1)様々なハイパーパラメーターで複数のモデルを訓練し、(2)保持された検証セット上で最良となる個別モデルを選定し、残りのモデルを破棄する。
本稿では,この手順の2番目のステップを,細調整されたモデルが単一の低誤差境界内にあるように見えるような,大規模事前学習モデルの文脈で再考する。
異なるパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度とロバスト性が向上することを示す。
従来のアンサンブルとは異なり、追加の推論やメモリコストを伴わずに、平均的な多くのモデルを作ることができます。
CLIP, ALIGN, およびJFTで事前学習したViT-Gなどの大規模事前学習モデルの微調整を行うと, スープレシピはImageNetのハイパーパラメータスイープにおいて, 最高のモデルよりも大幅に改善される。
ハイライトとして、結果のViT-Gモデルは、新しい最先端であるImageNetで90.94%のトップ1精度を達成した。
さらに,モデルスープアプローチが複数の画像分類や自然言語処理タスクに拡張され,分散性能が向上し,新しい下流タスクにおけるゼロショット性能が向上することを示す。
最後に,重量平均とロジットセンシングの性能の類似性を,予測の損失と信頼性の平坦性に分析的に関連付け,経験的に検証する。
関連論文リスト
- Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation [36.45488536471859]
類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。
重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。
GPの複雑さを低減するため,グループベースの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-11T15:12:30Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。
最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。
事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T15:57:20Z) - Do the Frankenstein, or how to achieve better out-of-distribution
performance with manifold mixing model soup [1.0878040851637998]
画像分類のためのCLIPモデルを微調整すると, 融合モデルにより分配性能が大幅に向上することを示す。
また、ファインタニングが行われた元のデータセットに対して、より正確な精度を提供する。
論文 参考訳(メタデータ) (2023-08-28T06:13:32Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。