論文の概要: Transformers Provably Learn Feature-Position Correlations in Masked
Image Modeling
- arxiv url: http://arxiv.org/abs/2403.02233v1
- Date: Mon, 4 Mar 2024 17:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:57:17.018656
- Title: Transformers Provably Learn Feature-Position Correlations in Masked
Image Modeling
- Title(参考訳): マスク画像モデリングにおける特徴量相関の学習
- Authors: Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang
- Abstract要約: マスク付き画像モデリング(MIM)は、マスクなしのパッチからランダムにマスクされたパッチを予測する。
我々はMIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論を提案する。
- 参考スコア(独自算出の注目度): 72.19427527234095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM), which predicts randomly masked patches from
unmasked ones, has emerged as a promising approach in self-supervised vision
pretraining. However, the theoretical understanding of MIM is rather limited,
especially with the foundational architecture of transformers. In this paper,
to the best of our knowledge, we provide the first end-to-end theory of
learning one-layer transformers with softmax attention in MIM self-supervised
pretraining. On the conceptual side, we posit a theoretical mechanism of how
transformers, pretrained with MIM, produce empirically observed local and
diverse attention patterns on data distributions with spatial structures that
highlight feature-position correlations. On the technical side, our end-to-end
analysis of the training dynamics of softmax-based transformers accommodates
both input and position embeddings simultaneously, which is developed based on
a novel approach to track the interplay between the attention of
feature-position and position-wise correlations.
- Abstract(参考訳): マスクのないパッチからランダムにマスクされたパッチを予測するマスク付き画像モデリング(MIM)は、自己監督型視覚前訓練において有望なアプローチとして登場した。
しかし、MIMの理論的理解は、特にトランスの基本的なアーキテクチャにおいて、かなり限られている。
本稿では,MIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論について述べる。
概念面では,mimで事前学習したトランスフォーマーが,特徴位置相関を強調する空間構造を持つデータ分布に対して,実験的に観察された局所的および多様な注意パターンを生成するという理論的メカニズムを仮定する。
技術面では、ソフトマックス変換器のトレーニングダイナミクスのエンドツーエンド解析は、入力と位置の埋め込みを同時に行うことができ、特徴位置の注意と位置関係の相互作用を追跡する新しい手法に基づいて開発されている。
関連論文リスト
- Attention with Markov: A Framework for Principled Analysis of
Transformers via Markov Chains [48.146073732531605]
マルコフ連鎖のレンズによる変圧器の逐次モデリング機能について検討する。
自然言語のマルコフ性に触発され、マルコフの情報源としてデータをモデル化する。
我々は,データ特性とトランスフォーマーアーキテクチャに基づいて,グローバルなミニマと悪いローカルなミニマの存在を示す。
論文 参考訳(メタデータ) (2024-02-06T17:18:59Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Surface Masked AutoEncoder: Self-Supervision for Cortical Imaging Data [8.196493680978977]
自己監督は視覚トランスフォーマーアーキテクチャにおける帰納バイアスの欠如に対処する方法として広く研究されてきた。
本稿では,視覚変換器を表面メッシュに変換する最近の進歩を基盤として,Masked AutoEncoder(MAE)による皮質表面学習の可能性について検討する。
論文 参考訳(メタデータ) (2023-08-10T10:01:56Z) - ExpPoint-MAE: Better interpretability and performance for
self-supervised point cloud transformers [9.881466104115352]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。