論文の概要: Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer
- arxiv url: http://arxiv.org/abs/2207.11971v1
- Date: Mon, 25 Jul 2022 08:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:46:55.357405
- Title: Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer
- Title(参考訳): jigsaw-vit: vision transformerでジグソーパズルを学ぶ
- Authors: Yingyi Chen, Xi Shen, Yahui Liu, Qinghua Tao, Johan A.K. Suykens
- Abstract要約: Jigsaw-ViTは、画像分類のための視覚変換器(ViT)の自己監督的な補助的損失である。
Jigsaw-ViTは、標準のViTよりも一般化と堅牢性の両方を改善できることを示す。
- 参考スコア(独自算出の注目度): 22.75024085059826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Vision Transformer (ViT) in various computer vision tasks has
promoted the ever-increasing prevalence of this convolution-free network. The
fact that ViT works on image patches makes it potentially relevant to the
problem of jigsaw puzzle solving, which is a classical self-supervised task
aiming at reordering shuffled sequential image patches back to their natural
form. Despite its simplicity, solving jigsaw puzzle has been demonstrated to be
helpful for diverse tasks using Convolutional Neural Networks (CNNs), such as
self-supervised feature representation learning, domain generalization, and
fine-grained classification.
In this paper, we explore solving jigsaw puzzle as a self-supervised
auxiliary loss in ViT for image classification, named Jigsaw-ViT. We show two
modifications that can make Jigsaw-ViT superior to standard ViT: discarding
positional embeddings and masking patches randomly. Yet simple, we find that
Jigsaw-ViT is able to improve both in generalization and robustness over the
standard ViT, which is usually rather a trade-off. Experimentally, we show that
adding the jigsaw puzzle branch provides better generalization than ViT on
large-scale image classification on ImageNet. Moreover, the auxiliary task also
improves robustness to noisy labels on Animal-10N, Food-101N, and Clothing1M as
well as adversarial examples. Our implementation is available at
https://yingyichen-cyy.github.io/Jigsaw-ViT/.
- Abstract(参考訳): 様々なコンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の成功は、この畳み込みのないネットワークの普及を促進する。
ViTがイメージパッチで動作するという事実は、シャッフルされたシーケンシャルなイメージパッチをその自然な形に戻すことを目的とした、古典的な自己教師型タスクであるジグソーパズル解決の問題に、潜在的に関係している。
その単純さにもかかわらず、ジグソーパズルの解法は、自己教師付き特徴表現学習、ドメインの一般化、きめ細かい分類など、畳み込みニューラルネットワーク(CNN)を用いた様々なタスクに有用であることが示されている。
本稿では, Jigsaw-ViT という画像分類において, ViT の自己教師付き補助損失としてジグソーパズルの解法を検討する。
Jigsaw-ViT を標準 ViT よりも優れているものにする2つの修正点を示す。
さらに簡単なことは、Jigsaw-ViTは標準のViTよりも一般化と堅牢性の両方を改善できるということです。
実験により,jigsaw パズルブランチの追加は,imagenet の大規模画像分類において vit よりも優れた一般化を提供することを示した。
さらに補助的なタスクは、Animal-10N, Food-101N, Clothing1Mのノイズラベルに対する堅牢性も向上する。
実装はhttps://yingyichen-cyy.github.io/jigsaw-vit/で利用可能です。
関連論文リスト
- ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - Vision Conformer: Incorporating Convolutions into Vision Transformer
Layers [6.09170287691728]
視覚変換器(ViT)は、画像認識タスクに変換器を適応させる。
ViTの問題点の1つは、画像構造に対する帰納的バイアスの欠如である。
本稿では,ViT内での畳み込み層の利用を提案する。
論文 参考訳(メタデータ) (2023-04-27T07:27:44Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Position Labels for Self-Supervised Vision Transformer [1.3406858660972554]
位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。
絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。
我々の位置ラベルは、様々なViTの変種と組み合わさって、簡単にトランスフォーマーに接続できる。
論文 参考訳(メタデータ) (2022-06-10T10:29:20Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。