Fugu-MT 論文翻訳(概要): Transformers Provably Learn Feature-Position Correlations in Masked Image Modeling

論文の概要: Transformers Provably Learn Feature-Position Correlations in Masked Image Modeling

arxiv url: http://arxiv.org/abs/2403.02233v1
Date: Mon, 4 Mar 2024 17:24:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:57:17.018656
Title: Transformers Provably Learn Feature-Position Correlations in Masked Image Modeling
Title（参考訳）: マスク画像モデリングにおける特徴量相関の学習
Authors: Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang
Abstract要約: マスク付き画像モデリング(MIM)は、マスクなしのパッチからランダムにマスクされたパッチを予測する。我々はMIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論を提案する。
参考スコア（独自算出の注目度）: 72.19427527234095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked image modeling (MIM), which predicts randomly masked patches from unmasked ones, has emerged as a promising approach in self-supervised vision pretraining. However, the theoretical understanding of MIM is rather limited, especially with the foundational architecture of transformers. In this paper, to the best of our knowledge, we provide the first end-to-end theory of learning one-layer transformers with softmax attention in MIM self-supervised pretraining. On the conceptual side, we posit a theoretical mechanism of how transformers, pretrained with MIM, produce empirically observed local and diverse attention patterns on data distributions with spatial structures that highlight feature-position correlations. On the technical side, our end-to-end analysis of the training dynamics of softmax-based transformers accommodates both input and position embeddings simultaneously, which is developed based on a novel approach to track the interplay between the attention of feature-position and position-wise correlations.
Abstract（参考訳）: マスクのないパッチからランダムにマスクされたパッチを予測するマスク付き画像モデリング(MIM)は、自己監督型視覚前訓練において有望なアプローチとして登場した。しかし、MIMの理論的理解は、特にトランスの基本的なアーキテクチャにおいて、かなり限られている。本稿では,MIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論について述べる。概念面では,mimで事前学習したトランスフォーマーが,特徴位置相関を強調する空間構造を持つデータ分布に対して,実験的に観察された局所的および多様な注意パターンを生成するという理論的メカニズムを仮定する。技術面では、ソフトマックス変換器のトレーニングダイナミクスのエンドツーエンド解析は、入力と位置の埋め込みを同時に行うことができ、特徴位置の注意と位置関係の相互作用を追跡する新しい手法に基づいて開発されている。

関連論文リスト

Skill Learning via Policy Diversity Yields Identifiable Representations for Reinforcement Learning [67.90033766878962]
自己指導型特徴学習(RL)は、相互情報スキル学習(MISL)と呼ばれる情報理論の原則に依存することが多い。本研究は,MISLを識別可能な表現学習のレンズを用いて検討する。コントラスト継承機能(Contrastive Successor Features, CSF)は, 線形変換まで環境の地下構造を確実に復元できることを実証する。
論文参考訳（メタデータ） (2025-07-19T20:48:46Z)
Provable Low-Frequency Bias of In-Context Learning of Representations [19.066378730056275]
In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。本稿では、二重収束の統一的な枠組みを導入することにより、このような現象を初めて厳密に説明する。この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
論文参考訳（メタデータ） (2025-07-17T21:19:32Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
StructFormer: Document Structure-based Masked Attention and its Impact on Language Model Pre-Training [20.79815837785261]
本研究は,BERT事前学習におけるグローバルアテンションの影響を実証的に評価することに焦点を当てた。我々は、arXivデータとテキスト専用コーパスとともに、構造化対応テキストの広範なコーパスを作成します。我々の分析は、文書構造をLMモデルに組み込むことの重要性を強調し、より抽象的なタスクに優れることを示す。
論文参考訳（メタデータ） (2024-11-25T17:57:52Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [36.92660589442233]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。 MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文参考訳（メタデータ） (2024-08-29T23:22:40Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Balanced Multi-Relational Graph Clustering [5.531383184058319]
マルチリレーショナルグラフクラスタリングは、複雑なネットワークの基盤となるパターンを明らかにすることに顕著な成功を収めた。我々の実証的研究は、現実のグラフにおいて不均衡が広範に存在することを発見し、これは原則的にアライメントの動機と矛盾する。我々は、教師なしの主観的マイニングと二重信号誘導表現学習からなるバランス付きマルチリレーショナルグラフクラスタリング(BMGC)を提案する。
論文参考訳（メタデータ） (2024-07-23T22:11:13Z)
On the Universal Truthfulness Hyperplane Inside LLMs [27.007142483859162]
モデル内の事実的正確かつ誤った出力を区別する普遍真性超平面が存在するかどうかを考察する。その結果,トレーニングデータセットの多様性の向上が,すべてのシナリオのパフォーマンスを著しく向上させることが示唆された。
論文参考訳（メタデータ） (2024-07-11T15:07:26Z)
CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder [44.94921073819524]
本稿では,マスク付き対応を再構築することにより,一般的な不整合表現を取得するための事前学習手法を提案する。実際には,通信プルーニングの事前学習に適したマスクオートエンコーダフレームワークであるCorrMAEを導入する。
論文参考訳（メタデータ） (2024-06-09T13:14:00Z)
What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。 CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文参考訳（メタデータ） (2024-05-31T17:57:24Z)
On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文参考訳（メタデータ） (2024-03-11T16:23:42Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift [14.641747166801133]
CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。 MMCLの強靭性の背後にある2つのメカニズムを同定する。理論的には、リッチキャプションを用いたロバストネスの利点を実証し、キャプション内の様々な種類の詳細を注釈付けする効果を探求する。
論文参考訳（メタデータ） (2023-10-08T02:25:52Z)
Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。咬合・感性分析(因果性を含む)にインスパイアされた1つの方法別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文参考訳（メタデータ） (2023-08-31T07:53:02Z)
Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。 Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文参考訳（メタデータ） (2023-08-19T02:27:51Z)
ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文参考訳（メタデータ） (2023-06-19T09:38:21Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文参考訳（メタデータ） (2022-12-18T11:42:51Z)
Spatial Entropy Regularization for Vision Transformers [71.44392961125807]
視覚変換器(VT)は、訓練が監督されたときに自然に出現しない意味的セグメンテーション構造を含むことができる。本稿では,情報エントロピーの空間的定式化に基づくVT正規化手法を提案する。提案手法は,異なるトレーニングシナリオ,データセット,下流タスク,VTアーキテクチャに対して有効であることを示す。
論文参考訳（メタデータ） (2022-06-09T17:34:39Z)
Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文参考訳（メタデータ） (2021-12-08T10:39:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。