論文の概要: How to Fine-Tune Vision Models with SGD
- arxiv url: http://arxiv.org/abs/2211.09359v2
- Date: Tue, 10 Oct 2023 05:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:50:13.822374
- Title: How to Fine-Tune Vision Models with SGD
- Title(参考訳): sgdで視覚モデルを微調整する方法
- Authors: Ananya Kumar and Ruoqi Shen and Sebastien Bubeck and Suriya Gunasekar
- Abstract要約: 我々は、AdamWによる微調整が、現代のビジョントランスフォーマーやConvNeXtモデルでSGDよりも大幅に優れていることを発見した。
私たちの洞察は、5つの人気のある分散シフトベンチマークにおける最先端の精度をもたらす。
- 参考スコア(独自算出の注目度): 27.92190652150368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SGD and AdamW are the two most used optimizers for fine-tuning large neural
networks in computer vision. When the two methods perform the same, SGD is
preferable because it uses less memory (12 bytes/parameter with momentum and 8
bytes/parameter without) than AdamW (16 bytes/parameter). However, on a suite
of downstream tasks, especially those with distribution shifts, we find that
fine-tuning with AdamW performs substantially better than SGD on modern Vision
Transformer and ConvNeXt models. We find that large gaps in performance between
SGD and AdamW occur when the fine-tuning gradients in the first "embedding"
layer are much larger than in the rest of the model. Our analysis suggests an
easy fix that works consistently across datasets and models: freezing the
embedding layer (less than 1% of the parameters) leads to SGD with or without
momentum performing slightly better than AdamW while using less memory (e.g.,
on ViT-L, SGD uses 33% less GPU memory). Our insights result in
state-of-the-art accuracies on five popular distribution shift benchmarks:
WILDS-FMoW, WILDS-Camelyon, BREEDS-Living-17, Waterbirds, and DomainNet.
- Abstract(参考訳): SGDとAdamWは、コンピュータビジョンにおいて大きなニューラルネットワークを微調整するのに最もよく使われる2つのオプティマイザである。
2つの方法が同じ場合、SGDはAdamW(16バイト/パラメータ)よりもメモリ(運動量12バイト/パラメータ、パラメータなし8バイト/パラメータ)が少ないため、好ましい。
しかし、下流タスク、特に分布シフトのあるタスクでは、現代のビジョントランスフォーマーやConvNeXtモデルでは、AdamWによる微調整の方がSGDよりもかなり優れていることが分かる。
その結果,SGDとAdamWの差は,第1層における微調整勾配がモデルの他の層よりもはるかに大きい場合に生じることがわかった。
組み込み層の凍結(パラメータの1%未満)は、メモリ使用量が少ない場合(vit-lの場合、sgdは33%少ないgpuメモリを使用するなど)、adamwよりもわずかに優れた運動量でsgdを動作させる。
我々の洞察は、WILDS-FMoW、WILDS-Camelyon、BREEDS-Living-17、Waterbirds、DomainNetの5つの人気のある分散シフトベンチマークにおける最先端の精度をもたらす。
関連論文リスト
- ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on
Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。
我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文 参考訳(メタデータ) (2023-04-27T05:41:13Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Network Augmentation for Tiny Deep Learning [73.57192520534585]
ニューラルネットワークの性能向上のための新しいトレーニング手法であるNetAug(Net Aug)を紹介する。
画像分類と物体検出におけるNetAugの有効性を示す。
論文 参考訳(メタデータ) (2021-10-17T18:48:41Z) - Early Convolutions Help Transformers See Better [63.21712652156238]
視覚変換器(ViT)モデルは準標準最適化性を示す。
現代の畳み込みニューラルネットワークは、最適化がはるかに容易である。
畳み込みステムをViTで使用すると、最適化の安定性が劇的に向上し、ピーク性能も向上する。
論文 参考訳(メタデータ) (2021-06-28T17:59:33Z) - Dual Averaging is Surprisingly Effective for Deep Learning Optimization [20.191456827448736]
1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
論文 参考訳(メタデータ) (2020-10-20T17:55:11Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - FBNetV2: Differentiable Neural Architecture Search for Spatial and
Channel Dimensions [70.59851564292828]
微分可能なニューラルネットワーク探索(DNAS)は、最先端で効率的なニューラルネットワークの設計において大きな成功を収めている。
メモリと計算効率のよいDNAS変異体DMaskingNASを提案する。
このアルゴリズムは、検索スペースを従来のDNASよりも最大1014倍に拡張する。
論文 参考訳(メタデータ) (2020-04-12T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。