論文の概要: Visualizing the loss landscape of Self-supervised Vision Transformer
- arxiv url: http://arxiv.org/abs/2405.18042v1
- Date: Tue, 28 May 2024 10:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.382306
- Title: Visualizing the loss landscape of Self-supervised Vision Transformer
- Title(参考訳): 自己監督型視覚変換器の損失景観の可視化
- Authors: Youngwan Lee, Jeffrey Ryan Willette, Jonghee Kim, Sung Ju Hwang,
- Abstract要約: Masked Autoencoder (MAE) は、視覚変換器を用いたマスク付き画像モデリングのための代表的自己教師型アプローチとして注目されている。
我々は、MAEとRC-MAEによる自己監督型視覚変換器の損失景観を可視化し、それらを教師付きViT(Sup-ViT)と比較する。
我々の知る限りでは、この研究は、ロスランドスケープのレンズを通して自己監督型ViTを初めて調査したものだ。
- 参考スコア(独自算出の注目度): 53.84372035496475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Masked autoencoder (MAE) has drawn attention as a representative self-supervised approach for masked image modeling with vision transformers. However, even though MAE shows better generalization capability than fully supervised training from scratch, the reason why has not been explored. In another line of work, the Reconstruction Consistent Masked Auto Encoder (RC-MAE), has been proposed which adopts a self-distillation scheme in the form of an exponential moving average (EMA) teacher into MAE, and it has been shown that the EMA-teacher performs a conditional gradient correction during optimization. To further investigate the reason for better generalization of the self-supervised ViT when trained by MAE (MAE-ViT) and the effect of the gradient correction of RC-MAE from the perspective of optimization, we visualize the loss landscapes of the self-supervised vision transformer by both MAE and RC-MAE and compare them with the supervised ViT (Sup-ViT). Unlike previous loss landscape visualizations of neural networks based on classification task loss, we visualize the loss landscape of ViT by computing pre-training task loss. Through the lens of loss landscapes, we find two interesting observations: (1) MAE-ViT has a smoother and wider overall loss curvature than Sup-ViT. (2) The EMA-teacher allows MAE to widen the region of convexity in both pretraining and linear probing, leading to quicker convergence. To the best of our knowledge, this work is the first to investigate the self-supervised ViT through the lens of the loss landscape.
- Abstract(参考訳): Masked Autoencoder (MAE) は、視覚変換器を用いたマスク付き画像モデリングのための代表的自己教師型アプローチとして注目されている。
しかしながら、MAEは、スクラッチから完全に教師付きトレーニングを行うよりも、より優れた一般化能力を示すが、その理由が明らかにされていない。
別の研究の行では、指数移動平均(EMA)教師をMAEに変換する形で自己蒸留方式を採用するRC-MAE(Restruction Consistent Masked Auto Encoder)が提案されており、EMA-Teacherが最適化中に条件勾配補正を行うことが示されている。
さらに,MAE (MAE-ViT) による自己監督型 ViT のより良い一般化の理由と最適化の観点からRC-MAE の勾配補正の効果について検討するため,MAE と RC-MAE の双方で自己監督型視覚変換器の損失景観を可視化し,教師型 ViT (Sup-ViT) と比較した。
分類タスク損失に基づくニューラルネットワークの以前のロスランドスケープ可視化とは異なり、トレーニング前タスク損失の計算により、ViTのロスランドスケープを可視化する。
損失景観のレンズを通して、(1)MAE-ViTはSup-ViTよりも滑らかで全体的損失曲率が大きい。
2) EMA-Teacherは, 事前学習と線形探索の両方において, 凸領域を拡大し, より早く収束させる。
我々の知る限りでは、この研究は、ロスランドスケープのレンズを通して自己監督型ViTを初めて調査したものだ。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing [5.325585142755542]
我々は,Masked Auto-Encoder (MAE)をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
実験により,Cross-Scale MAEは標準的なMAEと他の最先端のリモートセンシングMAE法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-29T03:06:19Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。