論文の概要: LipsFormer: Introducing Lipschitz Continuity to Vision Transformers
- arxiv url: http://arxiv.org/abs/2304.09856v1
- Date: Wed, 19 Apr 2023 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:18:29.262640
- Title: LipsFormer: Introducing Lipschitz Continuity to Vision Transformers
- Title(参考訳): LipsFormer: ビジョントランスフォーマーへのリプシッツ連続性の導入
- Authors: Xianbiao Qi, Jianan Wang, Yihao Chen, Yukai Shi, Lei Zhang
- Abstract要約: リプシッツ連続変換器(LipsFormer)を提案する。
実験の結果,LipsFormerは学習率調整を必要とせずに,深層トランスフォーマーアーキテクチャの安定したトレーニングを可能にすることがわかった。
CSwinをベースとしたLipsFormer-CSwin-Tinyは、300エポックのトレーニングで4.7GのFLOPと24Mのパラメータでトップ-1の精度が83.5%に達した。
- 参考スコア(独自算出の注目度): 15.568629066375971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a Lipschitz continuous Transformer, called LipsFormer, to pursue
training stability both theoretically and empirically for Transformer-based
models. In contrast to previous practical tricks that address training
instability by learning rate warmup, layer normalization, attention
formulation, and weight initialization, we show that Lipschitz continuity is a
more essential property to ensure training stability. In LipsFormer, we replace
unstable Transformer component modules with Lipschitz continuous counterparts:
CenterNorm instead of LayerNorm, spectral initialization instead of Xavier
initialization, scaled cosine similarity attention instead of dot-product
attention, and weighted residual shortcut. We prove that these introduced
modules are Lipschitz continuous and derive an upper bound on the Lipschitz
constant of LipsFormer. Our experiments show that LipsFormer allows stable
training of deep Transformer architectures without the need of careful learning
rate tuning such as warmup, yielding a faster convergence and better
generalization. As a result, on the ImageNet 1K dataset, LipsFormer-Swin-Tiny
based on Swin Transformer training for 300 epochs can obtain 82.7\% without any
learning rate warmup. Moreover, LipsFormer-CSwin-Tiny, based on CSwin, training
for 300 epochs achieves a top-1 accuracy of 83.5\% with 4.7G FLOPs and 24M
parameters. The code will be released at
\url{https://github.com/IDEA-Research/LipsFormer}.
- Abstract(参考訳): リプシッツ連続変圧器(lipschitz continuous transformer, lipsformer)を提案する。
学習率ウォームアップ,層正規化,注意定式化,重み初期化によるトレーニング不安定に対処する従来の実践的手法とは対照的に,リプシッツ連続性はトレーニング安定性を確保する上でより不可欠な性質であることを示す。
LipsFormerでは、不安定なTransformer成分加群をLayerNormの代わりにCenterNorm、Xavierの初期化の代わりにスペクトル初期化、ドット積の注意の代わりにコサイン類似性注意を拡大、そして余分なショートカットに置き換える。
これらの導入加群がリプシッツ連続であり、リプシッツ定数の上界を導出することを証明する。
実験の結果,LipsFormerは,ウォームアップなどの注意深い学習率チューニングを必要とせず,より高速な収束と一般化を実現することができることがわかった。
その結果、imagenet 1kデータセットでは、300エポックのスウィントランストレーニングに基づくlipsformer-swin-tinyが学習率ウォームアップなしで82.7\%を得ることができる。
さらに、cswinに基づくlipsformer-cswin-tinyでは、300エポックのトレーニングが4.7gフロップと24mパラメータを持つ83.5\%のtop-1精度を達成している。
コードは \url{https://github.com/IDEA-Research/LipsFormer} でリリースされる。
関連論文リスト
- DP-SGD Without Clipping: The Lipschitz Neural Network Way [5.922390405022253]
ディファレンシャル・プライベート(DP)ディープ・ニューラル・ニューラルネットワーク(DNN)の訓練
パラメータに関して各レイヤのリプシッツ定数をバウンドすることで、これらのネットワークをプライバシ保証でトレーニングできることを証明します。
我々の分析では、上記の感性度を大規模に計算できるだけでなく、固定されたプライバシー保証のための勾配-雑音比を最大化するためのガイダンスも提供しています。
論文 参考訳(メタデータ) (2023-05-25T16:05:46Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - CertViT: Certified Robustness of Pre-Trained Vision Transformers [11.880271015435582]
Lipschitzのバウンドニューラルネットワークは、確実に堅牢であり、クリーンと認定の正確性の間に良いトレードオフがある。
既存のリプシッツ境界法は、スクラッチから訓練され、適度な大きさのネットワークに制限されている。
CertViTネットワークは、最先端のリプシッツ訓練ネットワークよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-02-01T06:09:19Z) - Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural
Networks [77.82638674792292]
ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。
リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。
本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度の損失をゼロにする。
論文 参考訳(メタデータ) (2022-04-02T11:57:52Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - The Lipschitz Constant of Self-Attention [27.61634862685452]
ニューラルネットワークのリプシッツ定数は、ディープラーニングにおいて様々な文脈で研究されている。
配列モデリングに広く用いられている非線形ニューラルネットワークモジュールである自己アテンションのリプシッツ定数について検討する。
論文 参考訳(メタデータ) (2020-06-08T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。