論文の概要: A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity
- arxiv url: http://arxiv.org/abs/2302.06015v3
- Date: Sun, 12 Nov 2023 04:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 19:13:17.217042
- Title: A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity
- Title(参考訳): 浅部視覚トランスフォーマの理論的理解--学習・一般化・サンプル複雑性
- Authors: Hongkang Li, Meng Wang, Sijia Liu, Pin-yu Chen
- Abstract要約: 自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
- 参考スコア(独自算出の注目度): 71.11795737362459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) with self-attention modules have recently achieved
great empirical success in many vision tasks. Due to non-convex interactions
across layers, however, theoretical learning and generalization analysis is
mostly elusive. Based on a data model characterizing both label-relevant and
label-irrelevant tokens, this paper provides the first theoretical analysis of
training a shallow ViT, i.e., one self-attention layer followed by a two-layer
perceptron, for a classification task. We characterize the sample complexity to
achieve a zero generalization error. Our sample complexity bound is positively
correlated with the inverse of the fraction of label-relevant tokens, the token
noise level, and the initial model error. We also prove that a training process
using stochastic gradient descent (SGD) leads to a sparse attention map, which
is a formal verification of the general intuition about the success of
attention. Moreover, this paper indicates that a proper token sparsification
can improve the test performance by removing label-irrelevant and/or noisy
tokens, including spurious correlations. Empirical experiments on synthetic
data and CIFAR-10 dataset justify our theoretical results and generalize to
deeper ViTs.
- Abstract(参考訳): 自己着脱モジュールを備えた視覚トランスフォーマー(vits)は、近年多くの視覚タスクで大きな成功を収めている。
しかし、層間の非凸相互作用のため、理論的な学習と一般化分析がほとんどである。
本稿では,ラベル関連トークンとラベル関連トークンの両方を特徴付けるデータモデルに基づいて,浅いvit,すなわち1つの自己付着層と2層パーセプトロンを分類タスクとして訓練する最初の理論的解析を行う。
サンプルの複雑さを特徴付け、ゼロ一般化誤差を実現する。
私たちのサンプル複雑性境界は、ラベル関連トークンの分数、トークンノイズレベル、初期モデルエラーの逆と正の相関がある。
また,確率的勾配降下 (sgd) を用いた学習プロセスが,注意度マップのスパース化につながることを証明し,注意度の成功に関する一般直観の形式的検証を行った。
さらに, 適切なトークンスペーシフィケーションは, 相関関係を含むラベル不関連トークンやノイズトークンを除去することにより, テスト性能を向上させることができることを示す。
合成データとCIFAR-10データセットに関する実証実験は、我々の理論結果を正当化し、より深いViTに一般化する。
関連論文リスト
- What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - COSST: Multi-organ Segmentation with Partially Labeled Datasets Using
Comprehensive Supervisions and Self-training [15.639976408273784]
ディープラーニングモデルは、マルチ組織セグメンテーションにおいて顕著な成功を収めてきたが、典型的には、興味のあるすべての器官に注釈を付けた大規模なデータセットを必要とする。
利用可能な部分ラベル付きデータセットの統一モデルを学習して、そのシナジスティックなポテンシャルを活用する方法については、調査が不可欠である。
COSSTと呼ばれる新しい2段階のフレームワークを提案し、このフレームワークは包括的監視信号と自己学習を効果的に効率的に統合する。
論文 参考訳(メタデータ) (2023-04-27T08:55:34Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Contrastive variational information bottleneck for aspect-based
sentiment analysis [36.83876224466177]
CVIB(Contrastive Variational Information Bottleneck)フレームワークを用いて,アスペクトベース感情分析(ABSA)の素早い相関性を低減することを提案する。
提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。
提案手法は, 全体的な予測性能, 堅牢性, 一般化の点で, 強力な競合相手よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T02:52:37Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - A Theoretical Analysis of Learning with Noisily Labeled Data [62.946840431501855]
最初に、最初のエポックトレーニングで、クリーンラベルの例が先に学習されることを示しました。
次に、クリーンデータステージから学習した後、継続的なトレーニングモデルがテストエラーのさらなる改善を達成できることを示します。
論文 参考訳(メタデータ) (2021-04-08T23:40:02Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。