論文の概要: PopulAtion Parameter Averaging (PAPA)
- arxiv url: http://arxiv.org/abs/2304.03094v2
- Date: Wed, 24 May 2023 15:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 01:35:53.795357
- Title: PopulAtion Parameter Averaging (PAPA)
- Title(参考訳): ポピュレーションパラメータ平均化(PAPA)
- Authors: Alexia Jolicoeur-Martineau, Emy Gervais, Kilian Fatras, Yan Zhang,
Simon Lacoste-Julien
- Abstract要約: 本稿では,アンサンブルの一般性と重量平均化の効率を結合する手法であるPopulAtion Averaging (PAPA)を提案する。
CIFAR-10では最大で0.8%、CIFAR-100では1.9%、ImageNetでは1.6%となる。
- 参考スコア(独自算出の注目度): 31.68548423767079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble methods combine the predictions of multiple models to improve
performance, but they require significantly higher computation costs at
inference time. To avoid these costs, multiple neural networks can be combined
into one by averaging their weights. However, this usually performs
significantly worse than ensembling. Weight averaging is only beneficial when
different enough to benefit from combining them, but similar enough to average
well. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a
method that combines the generality of ensembling with the efficiency of weight
averaging. PAPA leverages a population of diverse models (trained on different
data orders, augmentations, and regularizations) while slowly pushing the
weights of the networks toward the population average of the weights. PAPA
reduces the performance gap between averaging and ensembling, increasing the
average accuracy of a population of models by up to 0.8% on CIFAR-10, 1.9% on
CIFAR-100, and 1.6% on ImageNet when compared to training independent
(non-averaged) models.
- Abstract(参考訳): アンサンブル法は複数のモデルの予測を組み合わせて性能を向上させるが、推論時に計算コストを大幅に高める必要がある。
これらのコストを回避するために、複数のニューラルネットワークを重みを平均することで1つにまとめることができる。
しかし、これは通常、センシングよりも著しく悪くなる。
ウェイト平均化は、それらを組み合わせることで利益を得るのに十分な違いがある場合にのみ有益である。
この考え方に基づき, センシングの汎用性と重量平均化の効率を組み合わせる手法として, 集団パラメータ平均化(papa)を提案する。
PAPAは多様なモデル(異なるデータ順序、拡張、正規化に基づいて訓練された)の集団を活用しながら、ネットワークの重みを徐々に重みの平均まで押し上げている。
PAPAは平均化とアンサンブルのパフォーマンスギャップを減らし、CIFAR-10では0.8%、CIFAR-100では1.9%、ImageNetでは1.6%となる。
関連論文リスト
- GTFLAT: Game Theory Based Add-On For Empowering Federated Learning
Aggregation Techniques [0.3867363075280543]
GTFLATはゲーム理論に基づくアドオンであり、重要な研究課題に対処する。
モデル集約フェーズにおける平均化に対してより効果的な適応重みを設定することにより、フェデレーション学習アルゴリズムは、より優れたパフォーマンスと訓練効率を実現することができるのか?
その結果、GTFLATを平均するとトップ1テストの精度は1.38%向上し、通信ラウンドは21.06%削減された。
論文 参考訳(メタデータ) (2022-12-08T06:39:51Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Dropout Inference with Non-Uniform Weight Scaling [6.726255259929496]
正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過度な適合を防ぐために広く使用されている。
本研究では,いくつかのサブモデルが高バイアスモデルに近づき,一様でないウェイトスケーリングが推論の近似として優れているシナリオを実証する。
論文 参考訳(メタデータ) (2022-04-27T16:41:12Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Partial Model Averaging in Federated Learning: Performance Guarantees
and Benefits [15.77941565958136]
周期モデル平均化(FedAvg)を用いた局所勾配Descent(SGD)は、フェデレートラーニングにおける基礎的アルゴリズムである。
フェデレートラーニングにおけるモデルの相違を緩和する部分モデル平均化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T05:32:56Z) - Optimal Model Averaging: Towards Personalized Collaborative Learning [0.0]
連合学習では、参加ノード間のデータや目的の違いが、各ノードに対してパーソナライズされた機械学習モデルをトレーニングするためのアプローチを動機付けている。
そのようなアプローチの1つは、局所的に訓練されたモデルとグローバルモデルの間の重み付き平均化である。
局所モデルと比較して予測される2乗誤差を減少させるモデル平均化の正の量が常に存在することがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:33:20Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。