論文の概要: Hierarchical Weight Averaging for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2304.11519v1
- Date: Sun, 23 Apr 2023 02:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:02:44.197525
- Title: Hierarchical Weight Averaging for Deep Neural Networks
- Title(参考訳): ニューラルネットワークの階層的ウェイト平均化
- Authors: Xiaozhe Gu, Zixun Zhang, Yuncheng Jiang, Tao Luo, Ruimao Zhang,
Shuguang Cui, Zhen Li
- Abstract要約: 勾配降下(SGD)様アルゴリズムはディープニューラルネットワーク(DNN)の訓練に成功している
複数のモデルの重みを平均するウェイト平均化(WA)は、近年、文献に多くの注目を集めている。
本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。
- 参考スコア(独自算出の注目度): 39.45493779043969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the simplicity, stochastic gradient descent (SGD)-like algorithms are
successful in training deep neural networks (DNNs). Among various attempts to
improve SGD, weight averaging (WA), which averages the weights of multiple
models, has recently received much attention in the literature. Broadly, WA
falls into two categories: 1) online WA, which averages the weights of multiple
models trained in parallel, is designed for reducing the gradient communication
overhead of parallel mini-batch SGD, and 2) offline WA, which averages the
weights of one model at different checkpoints, is typically used to improve the
generalization ability of DNNs. Though online and offline WA are similar in
form, they are seldom associated with each other. Besides, these methods
typically perform either offline parameter averaging or online parameter
averaging, but not both. In this work, we firstly attempt to incorporate online
and offline WA into a general training framework termed Hierarchical Weight
Averaging (HWA). By leveraging both the online and offline averaging manners,
HWA is able to achieve both faster convergence speed and superior
generalization performance without any fancy learning rate adjustment. Besides,
we also analyze the issues faced by existing WA methods, and how our HWA
address them, empirically. Finally, extensive experiments verify that HWA
outperforms the state-of-the-art methods significantly.
- Abstract(参考訳): 単純さにもかかわらず、確率勾配降下(SGD)のようなアルゴリズムはディープニューラルネットワーク(DNN)のトレーニングに成功している。
sgdを改善する様々な試みの中で、複数のモデルの重みを平均する重量平均化(wa)が最近文献で注目を集めている。
WAは2つのカテゴリに分類される。
1) 並列で訓練された複数のモデルの重みを平均化するオンラインWAは、並列小バッチSGDの勾配通信オーバーヘッドを低減するために設計されている。
2) 異なるチェックポイントでモデルの重みを平均化するオフラインWAは,DNNの一般化能力を向上させるために一般的に使用される。
オンラインとオフラインのWAは形式的には似ているが、互いに結びつくことはめったにない。
さらに、これらのメソッドは通常、オフラインパラメータ平均化またはオンラインパラメータ平均化を実行するが、両方ではない。
本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。
オンラインとオフラインの両方の平均化手法を利用することで、HWAはより高速な収束速度とより優れた一般化性能を実現することができる。
さらに、既存のwaメソッドが直面する問題や、hwaが経験的に対処する方法についても分析します。
最後に、広範な実験により、HWAが最先端の手法を大幅に上回ることを確認した。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Lookaround Optimizer: $k$ steps around, 1 step average [36.207388029666625]
重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つの訓練軌道に沿って実行されることが多い。
そこで我々は,SGDに基づく単純かつ効果的な一般化であるLookaroundを提案する。
論文 参考訳(メタデータ) (2023-06-13T10:55:20Z) - Diverse Weight Averaging for Out-of-Distribution Generalization [100.22155775568761]
単走ではなく、複数の独立したトレーニングランから得られる平均重量について、Diverse Weight Averaging (DiWA)を提案する。
DiWAは、推論オーバーヘッドなしに競合するDomainBedベンチマークのテクニックの状態を継続的に改善します。
論文 参考訳(メタデータ) (2022-05-19T17:44:22Z) - Stochastic Weight Averaging Revisited [5.68481425260348]
SWAの性能は、SWAが収束する前に実行されるSGDプロセスの程度に大きく依存していることを示す。
収束が不十分なSGDプロセスに続き、SWAの実行回数が増えると、一般化の観点で連続的な漸進的なメリットがもたらされることが示される。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。