論文の概要: LaCViT: A Label-aware Contrastive Training Framework for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2303.18013v2
- Date: Tue, 12 Sep 2023 20:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:12:26.106060
- Title: LaCViT: A Label-aware Contrastive Training Framework for Vision
Transformers
- Title(参考訳): LaCViT:ビジョントランスフォーマーのためのラベル対応コントラストトレーニングフレームワーク
- Authors: Zijun Long, Zaiqiao Meng, Gerardo Aragon Camarasa, Richard McCreadie
- Abstract要約: 簡易かつ効果的なラベル対応コントラスト訓練フレームワークLaCViTを提案する。
LaCViTは、視覚変換器の事前訓練された表現空間の等方性を改善する。
LaCViTでトレーニングされたモデルは、オリジナルのトレーニング済みベースラインを約9%の絶対精度@1で上回ります。
- 参考スコア(独自算出の注目度): 18.76039338977432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers have been incredibly effective when tackling computer
vision tasks due to their ability to model long feature dependencies. By using
large-scale training data and various self-supervised signals (e.g., masked
random patches), vision transformers provide state-of-the-art performance on
several benchmarking datasets, such as ImageNet-1k and CIFAR-10. However, these
vision transformers pretrained over general large-scale image corpora could
only produce an anisotropic representation space, limiting their
generalizability and transferability to the target downstream tasks. In this
paper, we propose a simple and effective Label-aware Contrastive Training
framework LaCViT, which improves the isotropy of the pretrained representation
space for vision transformers, thereby enabling more effective transfer
learning amongst a wide range of image classification tasks. Through
experimentation over five standard image classification datasets, we
demonstrate that LaCViT-trained models outperform the original pretrained
baselines by around 9% absolute Accuracy@1, and consistent improvements can be
observed when applying LaCViT to our three evaluated vision transformers.
- Abstract(参考訳): ビジョントランスフォーマーは、長い機能依存性をモデル化できるため、コンピュータビジョンタスクに取り組む際に非常に効果的です。
大規模なトレーニングデータと様々な自己監視信号(例えばマスクされたランダムパッチ)を使用することで、vision transformerはimagenet-1kやcifar-10といったいくつかのベンチマークデータセットで最先端のパフォーマンスを提供する。
しかし、一般的な大規模画像コーパスで事前訓練されたこれらの視覚トランスフォーマーは、異方性表現空間しか生成できず、その一般化性と目標下流タスクへの転送性を制限した。
本稿では、視覚変換器の事前学習表現空間の等方性を改善し、幅広い画像分類タスクにおいてより効果的な移動学習を可能にする、単純で効果的なラベル対応コントラスト訓練フレームワークLaCViTを提案する。
5つの標準画像分類データセットを実験することにより、LaCViTトレーニングされたモデルは、元のトレーニング済みベースラインを約9%の絶対精度@1で上回り、LaCViTを3つの評価された視覚変換器に適用した場合、一貫した改善が観察できることを示した。
関連論文リスト
- Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。