論文の概要: Lookaround Optimizer: $k$ steps around, 1 step average
- arxiv url: http://arxiv.org/abs/2306.07684v3
- Date: Thu, 2 Nov 2023 15:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:18:26.767583
- Title: Lookaround Optimizer: $k$ steps around, 1 step average
- Title(参考訳): lookaroundオプティマイザ:$k$のステップ、平均1ステップ
- Authors: Jiangtao Zhang, Shunyu Liu, Jie Song, Tongtian Zhu, Zhengqi Xu, Mingli
Song
- Abstract要約: 重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つの訓練軌道に沿って実行されることが多い。
そこで我々は,SGDに基づく単純かつ効果的な一般化であるLookaroundを提案する。
- 参考スコア(独自算出の注目度): 36.207388029666625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight Average (WA) is an active research topic due to its simplicity in
ensembling deep networks and the effectiveness in promoting generalization.
Existing weight average approaches, however, are often carried out along only
one training trajectory in a post-hoc manner (i.e., the weights are averaged
after the entire training process is finished), which significantly degrades
the diversity between networks and thus impairs the effectiveness. In this
paper, inspired by weight average, we propose Lookaround, a straightforward yet
effective SGD-based optimizer leading to flatter minima with better
generalization. Specifically, Lookaround iterates two steps during the whole
training period: the around step and the average step. In each iteration, 1)
the around step starts from a common point and trains multiple networks
simultaneously, each on transformed data by a different data augmentation, and
2) the average step averages these trained networks to get the averaged
network, which serves as the starting point for the next iteration. The around
step improves the functionality diversity while the average step guarantees the
weight locality of these networks during the whole training, which is essential
for WA to work. We theoretically explain the superiority of Lookaround by
convergence analysis, and make extensive experiments to evaluate Lookaround on
popular benchmarks including CIFAR and ImageNet with both CNNs and ViTs,
demonstrating clear superiority over state-of-the-arts. Our code is available
at https://github.com/Ardcy/Lookaround.
- Abstract(参考訳): 重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つのトレーニングコース(すなわち、トレーニングプロセス全体の完了後に重量が平均される)に沿って行われることが多く、ネットワーク間の多様性を著しく低下させ、効果を損なう。
本稿では,重量平均に着想を得たlookaroundを提案する。これは単純で効果的なsgdベースの最適化器で,より一般化されたフラットなミニマを導出する。
特に、Lookaroundはトレーニング期間中に、アラウンドステップと平均ステップの2つのステップを繰り返す。
それぞれのイテレーションで。
1)その周辺ステップは、共通点から始まり、異なるデータ拡張によって変換されたデータに基づいて、複数のネットワークを同時に訓練する。
2) 平均的なステップは、トレーニングされたネットワークを平均化し、次のイテレーションの出発点となる平均的なネットワークを得る。
平均的なステップは、トレーニング全体においてこれらのネットワークの重みの局所性を保証しますが、WAが機能するのは必須です。
我々は,コンバージェンス解析によるルックアラウンドの優位性を理論的に説明し,cnnとvitsを用いたcifarやimagenetなどの人気のあるベンチマークのルックアラウンドを評価するために広範な実験を行った。
私たちのコードはhttps://github.com/ardcy/lookaroundで利用可能です。
関連論文リスト
- Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Hierarchical Weight Averaging for Deep Neural Networks [39.45493779043969]
勾配降下(SGD)様アルゴリズムはディープニューラルネットワーク(DNN)の訓練に成功している
複数のモデルの重みを平均するウェイト平均化(WA)は、近年、文献に多くの注目を集めている。
本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。
論文 参考訳(メタデータ) (2023-04-23T02:58:03Z) - PA&DA: Jointly Sampling PAth and DAta for Consistent NAS [8.737995937682271]
ワンショットNASメソッドはスーパーネットをトレーニングし、トレーニング済みの重みを継承してサブモデルを評価する。
大規模な勾配分散は、スーパーネットのトレーニング中に発生し、スーパーネットのランキング一貫性を低下させる。
本稿では,PAth と DAta のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T17:14:24Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。