論文の概要: A Closer Look at Codistillation for Distributed Training
- arxiv url: http://arxiv.org/abs/2010.02838v2
- Date: Mon, 26 Jul 2021 01:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 08:07:18.670523
- Title: A Closer Look at Codistillation for Distributed Training
- Title(参考訳): 分散トレーニングにおける共蒸留の概観
- Authors: Shagun Sodhani, Olivier Delalleau, Mahmoud Assran, Koustuv Sinha,
Nicolas Ballas, Michael Rabbat
- Abstract要約: 分散トレーニング環境における共蒸留について検討する。
適度なバッチサイズであっても、共蒸留で訓練されたモデルだけでなく、同期データ並列メソッドで訓練されたモデルも実行可能であることが分かりました。
- 参考スコア(独自算出の注目度): 21.08740153686464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Codistillation has been proposed as a mechanism to share knowledge among
concurrently trained models by encouraging them to represent the same function
through an auxiliary loss. This contrasts with the more commonly used
fully-synchronous data-parallel stochastic gradient descent methods, where
different model replicas average their gradients (or parameters) at every
iteration and thus maintain identical parameters. We investigate codistillation
in a distributed training setup, complementing previous work which focused on
extremely large batch sizes. Surprisingly, we find that even at moderate batch
sizes, models trained with codistillation can perform as well as models trained
with synchronous data-parallel methods, despite using a much weaker
synchronization mechanism. These findings hold across a range of batch sizes
and learning rate schedules, as well as different kinds of models and datasets.
Obtaining this level of accuracy, however, requires properly accounting for the
regularization effect of codistillation, which we highlight through several
empirical observations. Overall, this work contributes to a better
understanding of codistillation and how to best take advantage of it in a
distributed computing environment.
- Abstract(参考訳): 共蒸留は、補助損失によって同じ関数を表現するように促すことで、同時に訓練されたモデル間で知識を共有するメカニズムとして提案されている。
これは、複数のモデルレプリカが各イテレーションで勾配(またはパラメータ)を平均し、同一のパラメータを維持できる、より一般的に使用される完全同期データ並列確率勾配降下法とは対照的である。
大規模バッチサイズに着目した先行研究を補完し,分散トレーニング環境における共蒸留について検討した。
驚くべきことに、中間的なバッチサイズであっても、より弱い同期機構を使用しても、共蒸留で訓練されたモデルだけでなく、同期データ並列メソッドで訓練されたモデルも実行できる。
これらの発見は、さまざまな種類のモデルやデータセットと同様に、バッチサイズや学習率のスケジュールにまたがる。
しかし、このレベルの精度を得るには、いくつかの経験的観察を通して注目される、蒸留の正規化効果を適切に考慮する必要がある。
全体として、この研究は共蒸留の理解を深め、分散コンピューティング環境でそれを最大限に活用する方法に貢献している。
関連論文リスト
- DDIL: Improved Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Deep Clustering with Diffused Sampling and Hardness-aware
Self-distillation [4.550555443103878]
本稿では, 拡散サンプリングと硬度認識型自己蒸留(HaDis)を併用した, エンドツーエンドの深層クラスタリング手法を提案する。
5つの課題の画像データセットの結果は、最先端のHaDis法よりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2024-01-25T09:33:49Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Diversity Matters When Learning From Ensembles [20.05842308307947]
深層アンサンブルは、予測精度とキャリブレーションの両方において、大規模な画像分類タスクにおいて優れている。
訓練が簡単であるにもかかわらず、ディープアンサンブルの計算とメモリコストは、その実行可能性を制限する。
本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T03:44:34Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Robust Correction of Sampling Bias Using Cumulative Distribution
Functions [19.551668880584973]
変数ドメインとバイアス付きデータセットは、トレーニングとターゲット分布の違いにつながる可能性がある。
これを緩和するための現在のアプローチは、しばしばトレーニングとターゲット確率密度関数の比率を推定することに依存する。
論文 参考訳(メタデータ) (2020-10-23T22:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。