論文の概要: Multi-Attribute Vision Transformers are Efficient and Robust Learners
- arxiv url: http://arxiv.org/abs/2402.08070v2
- Date: Fri, 19 Jul 2024 16:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:56:51.429590
- Title: Multi-Attribute Vision Transformers are Efficient and Robust Learners
- Title(参考訳): 多属性視覚変換器は効率的かつロバストな学習者である
- Authors: Hanan Gani, Nada Saadi, Noor Hussein, Karthik Nandakumar,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
- 参考スコア(独自算出の注目度): 4.53923275658276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since their inception, Vision Transformers (ViTs) have emerged as a compelling alternative to Convolutional Neural Networks (CNNs) across a wide spectrum of tasks. ViTs exhibit notable characteristics, including global attention, resilience against occlusions, and adaptability to distribution shifts. One underexplored aspect of ViTs is their potential for multi-attribute learning, referring to their ability to simultaneously grasp multiple attribute-related tasks. In this paper, we delve into the multi-attribute learning capability of ViTs, presenting a straightforward yet effective strategy for training various attributes through a single ViT network as distinct tasks. We assess the resilience of multi-attribute ViTs against adversarial attacks and compare their performance against ViTs designed for single attributes. Moreover, we further evaluate the robustness of multi-attribute ViTs against a recent transformer based attack called Patch-Fool. Our empirical findings on the CelebA dataset provide validation for our assertion. Our code is available at https://github.com/hananshafi/MTL-ViT
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、その誕生以来、幅広いタスクにまたがる畳み込みニューラルネットワーク(CNN)に代わる魅力的な代替手段として現れてきた。
ViTは、グローバルな注目、オクルージョンに対するレジリエンス、分散シフトへの適応性など、顕著な特徴を示す。
ViTの未発見の側面は、複数の属性関連タスクを同時に把握する能力に言及して、マルチ属性学習の可能性である。
本稿では,ViTのマルチ属性学習能力について検討し,個別のタスクとして,単一のViTネットワークを通じて様々な属性をトレーニングするための,単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
さらに,Patch-Fool と呼ばれる最近のトランスフォーマー攻撃に対するマルチ属性 ViT のロバスト性についても検討した。
CelebAデータセットに関する実証的な発見は、アサーションの検証を提供します。
私たちのコードはhttps://github.com/hananshafi/MTL-ViTで利用可能です。
関連論文リスト
- When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。