論文の概要: How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining
- arxiv url: http://arxiv.org/abs/2403.02233v2
- Date: Wed, 5 Jun 2024 00:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:51:07.597522
- Title: How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining
- Title(参考訳): モークドビジョン事前学習におけるトランスフォーマーの学習方法
- Authors: Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang,
- Abstract要約: 本研究では,マスク付き再建前訓練における一層変圧器の学習に関する,最初のエンドツーエンドの理論的保証を提供する。
概念的側面から,マスク付き視覚前訓練目標を用いた変圧器の局所的・多彩な注意パターンの生成機構を考察する。
技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
- 参考スコア(独自算出の注目度): 66.08606211686339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked reconstruction, which predicts randomly masked patches from unmasked ones, has emerged as an important approach in self-supervised pretraining. However, the theoretical understanding of masked pretraining is rather limited, especially for the foundational architecture of transformers. In this paper, to the best of our knowledge, we provide the first end-to-end theoretical guarantee of learning one-layer transformers in masked reconstruction self-supervised pretraining. On the conceptual side, we posit a mechanism of how transformers trained with masked vision pretraining objectives produce empirically observed local and diverse attention patterns, on data distributions with spatial structures that highlight feature-position correlations. On the technical side, our end-to-end characterization of training dynamics in softmax-attention models simultaneously accounts for input and position embeddings, which is developed based on a careful analysis tracking the interplay between feature-wise and position-wise attention correlations.
- Abstract(参考訳): マスクのないパッチからランダムにマスクされたパッチを推定するマスケリコンストラクションは、自己教師による事前トレーニングにおいて重要なアプローチとして現れている。
しかしながら、マスク付き事前学習の理論的理解は、特に変圧器の基本構造について、かなり限定的である。
本稿では,マスク付き再構成前訓練における一層変圧器の学習に関する,エンドツーエンドの理論的保証について述べる。
概念的側面では,特徴位置相関を強調させる空間構造を持つデータ分布に基づいて,マスク付き視覚前訓練目的のトランスフォーマーが,経験的に観察された局所的・多彩な注意パターンを生成するメカニズムを提示する。
技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
関連論文リスト
- StructFormer: Document Structure-based Masked Attention and its Impact on Language Model Pre-Training [20.79815837785261]
本研究は,BERT事前学習におけるグローバルアテンションの影響を実証的に評価することに焦点を当てた。
我々は、arXivデータとテキスト専用コーパスとともに、構造化対応テキストの広範なコーパスを作成します。
我々の分析は、文書構造をLMモデルに組み込むことの重要性を強調し、より抽象的なタスクに優れることを示す。
論文 参考訳(メタデータ) (2024-11-25T17:57:52Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder [44.94921073819524]
本稿では,マスク付き対応を再構築することにより,一般的な不整合表現を取得するための事前学習手法を提案する。
実際には,通信プルーニングの事前学習に適したマスクオートエンコーダフレームワークであるCorrMAEを導入する。
論文 参考訳(メタデータ) (2024-06-09T13:14:00Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with
Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。
Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文 参考訳(メタデータ) (2023-08-19T02:27:51Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Spatial Entropy Regularization for Vision Transformers [71.44392961125807]
視覚変換器(VT)は、訓練が監督されたときに自然に出現しない意味的セグメンテーション構造を含むことができる。
本稿では,情報エントロピーの空間的定式化に基づくVT正規化手法を提案する。
提案手法は,異なるトレーニングシナリオ,データセット,下流タスク,VTアーキテクチャに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-06-09T17:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。