論文の概要: Multi-Attribute Vision Transformers are Efficient and Robust Learners
- arxiv url: http://arxiv.org/abs/2402.08070v1
- Date: Mon, 12 Feb 2024 21:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:29:19.080387
- Title: Multi-Attribute Vision Transformers are Efficient and Robust Learners
- Title(参考訳): 多属性視覚トランスフォーマーは効率的でロバストな学習者である
- Authors: Hanan Gani and Nada Saadi and Noor Hussein and Karthik Nandakumar
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
ViTsの未発見の側面のひとつは、マルチ属性学習の可能性である。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 4.869897497679351
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since their inception, Vision Transformers (ViTs) have emerged as a
compelling alternative to Convolutional Neural Networks (CNNs) across a wide
spectrum of tasks. ViTs exhibit notable characteristics, including global
attention, resilience against occlusions, and adaptability to distribution
shifts. One underexplored aspect of ViTs is their potential for multi-attribute
learning, referring to their ability to simultaneously grasp multiple
attribute-related tasks. In this paper, we delve into the multi-attribute
learning capability of ViTs, presenting a straightforward yet effective
strategy for training various attributes through a single ViT network as
distinct tasks. We assess the resilience of multi-attribute ViTs against
adversarial attacks and compare their performance against ViTs designed for
single attributes. Moreover, we further evaluate the robustness of
multi-attribute ViTs against a recent transformer based attack called
Patch-Fool. Our empirical findings on the CelebA dataset provide validation for
our assertion.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、その誕生以来、幅広いタスクにわたる畳み込みニューラルネットワーク(CNN)に代わる魅力的な代替手段として現れてきた。
ViTは、グローバルな注目、閉塞に対するレジリエンス、分散シフトへの適応性など、顕著な特徴を示す。
ViTの未発見の側面は、複数の属性関連タスクを同時に把握する能力に言及して、マルチ属性学習の可能性である。
本稿では,ViTのマルチ属性学習能力について検討し,個別のタスクとして,単一のViTネットワークを通じて様々な属性をトレーニングするための,単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
さらに,最近のPatch-Fool攻撃に対するマルチ属性ViTのロバスト性についても検討した。
CelebAデータセットに関する実証的な発見は、アサーションの検証を提供します。
関連論文リスト
- SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。