論文の概要: A Theoretical Analysis of Self-Supervised Learning for Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.02233v3
- Date: Wed, 05 Feb 2025 14:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:17.458569
- Title: A Theoretical Analysis of Self-Supervised Learning for Vision Transformers
- Title(参考訳): 視覚変換器の自己監督学習に関する理論的解析
- Authors: Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang,
- Abstract要約: マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
- 参考スコア(独自算出の注目度): 66.08606211686339
- License:
- Abstract: Self-supervised learning has become a cornerstone in computer vision, primarily divided into reconstruction-based methods like masked autoencoders (MAE) and discriminative methods such as contrastive learning (CL). Recent empirical observations reveal that MAE and CL capture different types of representations: CL tends to focus on global patterns, while MAE adeptly captures both global and subtle local information simultaneously. Despite a flurry of recent empirical investigations to shed light on this difference, theoretical understanding remains limited, especially on the dominant architecture vision transformers (ViTs). In this paper, to provide rigorous insights, we model the visual data distribution by considering two types of spatial features: dominant global features and comparatively minuscule local features, and study the impact of imbalance among these features. We analyze the training dynamics of one-layer softmax-based ViTs on both MAE and CL objectives using gradient descent. Our analysis shows that as the degree of feature imbalance varies, ViTs trained with the MAE objective effectively learn both global and local features to achieve near-optimal reconstruction, while the CL-trained ViTs favor predominantly global features, even under mild imbalance. These results provide a theoretical explanation for distinct behaviors of MAE and CL observed in empirical studies.
- Abstract(参考訳): 自己教師型学習はコンピュータビジョンの基盤となり、主にマスク付きオートエンコーダ(MAE)のような再構成に基づく手法と、コントラスト学習(CL)のような差別的手法に分けられている。
CLはグローバルなパターンにフォーカスする傾向があり、MAEはグローバルな情報と微妙なローカル情報の両方を同時にキャプチャする傾向にある。
この違いに光を当てるための最近の実証研究が急増しているが、理論的な理解は、特に支配的なアーキテクチャビジョントランスフォーマー(ViT)において限られている。
本稿では、厳密な洞察を提供するために、大域的特徴と比較的極小な局所特徴の2種類の空間的特徴を考慮した視覚データ分布をモデル化し、これらの特徴間の不均衡の影響について検討する。
勾配降下法を用いて,MAEおよびCL目的の1層ソフトマックスベースのViTのトレーニングダイナミクスを解析した。
分析の結果,機能不均衡の程度が変化するにつれて,MPE で訓練した ViT は,大域的特徴と局所的特徴の両方を効果的に学習し,CL で訓練した ViT は軽度不均衡でも大域的特徴を優先することがわかった。
これらの結果は、経験的研究で観察されたMAEとCLの異なる挙動に関する理論的説明を提供する。
関連論文リスト
- Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Balanced Multi-Relational Graph Clustering [5.531383184058319]
マルチリレーショナルグラフクラスタリングは、複雑なネットワークの基盤となるパターンを明らかにすることに顕著な成功を収めた。
我々の実証的研究は、現実のグラフにおいて不均衡が広範に存在することを発見し、これは原則的にアライメントの動機と矛盾する。
我々は、教師なしの主観的マイニングと二重信号誘導表現学習からなるバランス付きマルチリレーショナルグラフクラスタリング(BMGC)を提案する。
論文 参考訳(メタデータ) (2024-07-23T22:11:13Z) - On the Universal Truthfulness Hyperplane Inside LLMs [27.007142483859162]
モデル内の事実的正確かつ誤った出力を区別する普遍真性超平面が存在するかどうかを考察する。
その結果,トレーニングデータセットの多様性の向上が,すべてのシナリオのパフォーマンスを著しく向上させることが示唆された。
論文 参考訳(メタデータ) (2024-07-11T15:07:26Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift [14.641747166801133]
CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
MMCLの強靭性の背後にある2つのメカニズムを同定する。
理論的には、リッチキャプションを用いたロバストネスの利点を実証し、キャプション内の様々な種類の詳細を注釈付けする効果を探求する。
論文 参考訳(メタデータ) (2023-10-08T02:25:52Z) - Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。
咬合・感性分析(因果性を含む)にインスパイアされた1つの方法
別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文 参考訳(メタデータ) (2023-08-31T07:53:02Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。