論文の概要: LaCViT: A Label-aware Contrastive Fine-tuning Framework for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2303.18013v3
- Date: Mon, 5 Feb 2024 22:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 21:01:49.201997
- Title: LaCViT: A Label-aware Contrastive Fine-tuning Framework for Vision
Transformers
- Title(参考訳): LaCViT:視覚変換器のためのラベル対応コントラスト微調整フレームワーク
- Authors: Zijun Long, Zaiqiao Meng, Gerardo Aragon Camarasa, Richard McCreadie
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンの一般的なモデルとして登場し、様々なタスクで最先端のパフォーマンスを実証している。
本稿では,新しいラベル対応コントラストトレーニングフレームワークであるLaCViTを紹介する。
LaCViTは3つの評価されたViTの性能をTop-1精度で最大10.78%向上させる。
- 参考スコア(独自算出の注目度): 18.76039338977432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have emerged as popular models in computer vision,
demonstrating state-of-the-art performance across various tasks. This success
typically follows a two-stage strategy involving pre-training on large-scale
datasets using self-supervised signals, such as masked random patches, followed
by fine-tuning on task-specific labeled datasets with cross-entropy loss.
However, this reliance on cross-entropy loss has been identified as a limiting
factor in ViTs, affecting their generalization and transferability to
downstream tasks. Addressing this critical challenge, we introduce a novel
Label-aware Contrastive Training framework, LaCViT, which significantly
enhances the quality of embeddings in ViTs. LaCViT not only addresses the
limitations of cross-entropy loss but also facilitates more effective transfer
learning across diverse image classification tasks. Our comprehensive
experiments on eight standard image classification datasets reveal that LaCViT
statistically significantly enhances the performance of three evaluated ViTs by
up-to 10.78% under Top-1 Accuracy.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンの一般的なモデルとして登場し、様々なタスクで最先端のパフォーマンスを実証している。
この成功は一般的に、マスクされたランダムパッチのような自己教師付き信号を使用して大規模データセットの事前トレーニングを含む2段階の戦略を踏襲し、その後、クロスエントロピーロスを持つタスク固有のラベル付きデータセットを微調整する。
しかし、このクロスエントロピー損失への依存はViTsの制限要因として認識され、その一般化と下流タスクへの伝達性に影響を及ぼす。
この重要な課題に対処するため、新しいラベル対応コントラストトレーニングフレームワークであるLaCViTを導入し、ViTへの埋め込みの質を大幅に向上させる。
LaCViTは、クロスエントロピー損失の限界に対処するだけでなく、多様な画像分類タスク間でより効果的な移動学習を促進する。
8つの標準画像分類データセットに関する包括的実験により,lacvitは3つの評価vitの性能をトップ1の精度で10.78%向上させた。
関連論文リスト
- Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。