Fugu-MT 論文翻訳(概要): Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

論文の概要: Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

arxiv url: http://arxiv.org/abs/2203.05482v1
Date: Thu, 10 Mar 2022 17:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 13:15:43.469678
Title: Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
Title（参考訳）: モデルスープ:複数の微調整モデルの平均重量は推論時間を増やすことなく精度を向上させる
Authors: Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt
Abstract要約: 複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
参考スコア（独自算出の注目度）: 69.7693300927423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set, discarding the remainder. In this paper, we revisit the second step of this procedure in the context of fine-tuning large pre-trained models, where fine-tuned models often appear to lie in a single low error basin. We show that averaging the weights of multiple models fine-tuned with different hyperparameter configurations often improves accuracy and robustness. Unlike a conventional ensemble, we may average many models without incurring any additional inference or memory costs -- we call the results "model soups." When fine-tuning large pre-trained models such as CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides significant improvements over the best model in a hyperparameter sweep on ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1 accuracy on ImageNet, a new state of the art. Furthermore, we show that the model soup approach extends to multiple image classification and natural language processing tasks, improves out-of-distribution performance, and improves zero-shot performance on new downstream tasks. Finally, we analytically relate the performance similarity of weight-averaging and logit-ensembling to flatness of the loss and confidence of the predictions, and validate this relation empirically.
Abstract（参考訳）: モデル精度を最大化するための従来のレシピは、(1)様々なハイパーパラメーターで複数のモデルを訓練し、(2)保持された検証セット上で最良となる個別モデルを選定し、残りのモデルを破棄する。本稿では,この手順の2番目のステップを,細調整されたモデルが単一の低誤差境界内にあるように見えるような,大規模事前学習モデルの文脈で再考する。異なるパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度とロバスト性が向上することを示す。従来のアンサンブルとは異なり、追加の推論やメモリコストを伴わずに、平均的な多くのモデルを作ることができます。 CLIP, ALIGN, およびJFTで事前学習したViT-Gなどの大規模事前学習モデルの微調整を行うと, スープレシピはImageNetのハイパーパラメータスイープにおいて, 最高のモデルよりも大幅に改善される。ハイライトとして、結果のViT-Gモデルは、新しい最先端であるImageNetで90.94%のトップ1精度を達成した。さらに,モデルスープアプローチが複数の画像分類や自然言語処理タスクに拡張され,分散性能が向上し,新しい下流タスクにおけるゼロショット性能が向上することを示す。最後に,重量平均とロジットセンシングの性能の類似性を,予測の損失と信頼性の平坦性に分析的に関連付け,経験的に検証する。

関連論文リスト

Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation [36.45488536471859]
類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。 GPの複雑さを低減するため,グループベースの学習戦略を提案する。
論文参考訳（メタデータ） (2024-10-11T15:12:30Z)
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文参考訳（メタデータ） (2024-09-17T16:58:52Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文参考訳（メタデータ） (2024-03-28T15:57:20Z)
Do the Frankenstein, or how to achieve better out-of-distribution performance with manifold mixing model soup [1.0878040851637998]
画像分類のためのCLIPモデルを微調整すると, 融合モデルにより分配性能が大幅に向上することを示す。また、ファインタニングが行われた元のデータセットに対して、より正確な精度を提供する。
論文参考訳（メタデータ） (2023-08-28T06:13:32Z)
Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-05-30T10:07:17Z)
CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-04-13T19:54:51Z)
No One Representation to Rule Them All: Overlapping Features of Training Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文参考訳（メタデータ） (2021-10-20T21:29:49Z)
Model Compression for Domain Adaptation through Causal Effect Estimation [20.842938440720303]
ATE誘導モデル圧縮スキーム(AMoC)は、除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。 AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3%以上多い。
論文参考訳（メタデータ） (2021-01-18T14:18:02Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。