論文の概要: WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average
- arxiv url: http://arxiv.org/abs/2405.17517v1
- Date: Mon, 27 May 2024 09:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:50:44.984531
- Title: WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average
- Title(参考訳): WASH:コミュニケーション効率の良いウェイトシャッフルでアンサンブルをトレーニングし、平均
- Authors: Louis Fournier, Adel Nabli, Masih Aminbeidokhti, Marco Pedersoli, Eugene Belilovsky, Edouard Oyallon,
- Abstract要約: ウェイト平均化手法は、アンサンブルの一般化と単一モデルの推論速度のバランスをとることを目的としている。
WASHは,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法である。
- 参考スコア(独自算出の注目度): 21.029085451757368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of deep neural networks is enhanced by ensemble methods, which average the output of several models. However, this comes at an increased cost at inference. Weight averaging methods aim at balancing the generalization of ensembling and the inference speed of a single model by averaging the parameters of an ensemble of models. Yet, naive averaging results in poor performance as models converge to different loss basins, and aligning the models to improve the performance of the average is challenging. Alternatively, inspired by distributed training, methods like DART and PAPA have been proposed to train several models in parallel such that they will end up in the same basin, resulting in good averaging accuracy. However, these methods either compromise ensembling accuracy or demand significant communication between models during training. In this paper, we introduce WASH, a novel distributed method for training model ensembles for weight averaging that achieves state-of-the-art image classification accuracy. WASH maintains models within the same basin by randomly shuffling a small percentage of weights during training, resulting in diverse models and lower communication costs compared to standard parameter averaging methods.
- Abstract(参考訳): 深層ニューラルネットワークの性能は、複数のモデルの出力を平均するアンサンブル法によって向上する。
しかし、これは推論のコストが増大する。
重み付け手法は,モデルのアンサンブルのパラメータを平均化することにより,単一モデルのアンサンブルの一般化と推論速度のバランスをとることを目的としている。
しかし、モデルが異なる損失流域に収束し、平均値を改善するためにモデルを整列させることは困難である。
あるいは、分散トレーニングにインスパイアされたDARTやPAPAといった手法は、複数のモデルを並列にトレーニングすることで、最終的には同じ盆地に到達し、結果として平均的な精度が向上する。
しかし、これらの手法は精度を損なうか、訓練中にモデル間の重要なコミュニケーションを要求するかのいずれかである。
本稿では,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法WASHを紹介する。
WASHはトレーニング中に少量の重量をランダムにシャッフルすることで同一盆地内のモデルを維持し、その結果、標準パラメータ平均化法と比較して、多様なモデルと通信コストが低下する。
関連論文リスト
- Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Vanishing Variance Problem in Fully Decentralized Neural-Network Systems [0.8212195887472242]
フェデレートラーニングとゴシップラーニングは、データプライバシの懸念を軽減するために考案された方法論だ。
本研究では,分散補正モデル平均化アルゴリズムを提案する。
シミュレーションの結果,Gossip学習は,フェデレート学習に匹敵する収束効率を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-04-06T12:49:20Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Robust and Efficient Aggregation for Distributed Learning [37.203175053625245]
平均化に基づく分散学習スキームは、外れ値に影響を受けやすいことが知られている。
単一の悪意のあるエージェントは、平均的な分散学習アルゴリズムを任意に貧弱なモデルに駆動することができる。
これは、中央値とトリミング平均の変動に基づくロバストアグリゲーションスキームの発展を動機付けている。
論文 参考訳(メタデータ) (2022-04-01T17:17:41Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Optimal Model Averaging: Towards Personalized Collaborative Learning [0.0]
連合学習では、参加ノード間のデータや目的の違いが、各ノードに対してパーソナライズされた機械学習モデルをトレーニングするためのアプローチを動機付けている。
そのようなアプローチの1つは、局所的に訓練されたモデルとグローバルモデルの間の重み付き平均化である。
局所モデルと比較して予測される2乗誤差を減少させるモデル平均化の正の量が常に存在することがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。