論文の概要: Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing
- arxiv url: http://arxiv.org/abs/2306.17848v1
- Date: Fri, 30 Jun 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:29:19.287577
- Title: Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing
- Title(参考訳): パッチミキシングによるCNNへのVTパッチ選択性
- Authors: Ariel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate
Saenko, Nataniel Ruiz
- Abstract要約: 我々は視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)を訓練する
Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかった。
我々は、このトレーニング手法が、VTがすでに持っている能力をCNNでシミュレートする方法であると結論付けている。
- 参考スコア(独自算出の注目度): 64.7892681641764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have significantly changed the computer vision
landscape and have periodically exhibited superior performance in vision tasks
compared to convolutional neural networks (CNNs). Although the jury is still
out on which model type is superior, each has unique inductive biases that
shape their learning and generalization performance. For example, ViTs have
interesting properties with respect to early layer non-local feature
dependence, as well as self-attention mechanisms which enhance learning
flexibility, enabling them to ignore out-of-context image information more
effectively. We hypothesize that this power to ignore out-of-context
information (which we name $\textit{patch selectivity}$), while integrating
in-context information in a non-local manner in early layers, allows ViTs to
more easily handle occlusion. In this study, our aim is to see whether we can
have CNNs $\textit{simulate}$ this ability of patch selectivity by effectively
hardwiring this inductive bias using Patch Mixing data augmentation, which
consists of inserting patches from another image onto a training image and
interpolating labels between the two image classes. Specifically, we use Patch
Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their
ability to ignore out-of-context patches and handle natural occlusions. We find
that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs
acquire new capabilities to ignore out-of-context information and improve on
occlusion benchmarks, leaving us to conclude that this training method is a way
of simulating in CNNs the abilities that ViTs already possess. We will release
our Patch Mixing implementation and proposed datasets for public use. Project
page: https://arielnlee.github.io/PatchMixing/
- Abstract(参考訳): 視覚変換器(ViT)はコンピュータビジョンのランドスケープを大きく変え、畳み込みニューラルネットワーク(CNN)と比較して視覚タスクにおいて定期的に優れた性能を示した。
陪審員はどのモデルが優れているかはまだ明らかになっていないが、それぞれが学習と一般化のパフォーマンスを形作る独自の帰納的バイアスを持っている。
例えば、vitは、早期層非局所的特徴依存に関する興味深い特性と、学習の柔軟性を高める自己照準機構を備えており、文脈外の画像情報をより効果的に無視することができる。
コンテキスト外情報($\textit{patch selectivity}$)を無視しながら、コンテキスト内情報を初期のレイヤに非ローカルな方法で統合することで、vitsがより簡単に閉塞を処理できる、と仮定しています。
本研究では,cnns $\textit{simulate}$のパッチ選択能力をパッチ混合データ拡張法を用いて効果的にハードワイズすることにより確認することを目的としている。
具体的には,最先端のvitsとcnnのトレーニングにパッチミキシングを使用し,文脈外のパッチを無視し,自然な閉塞に対処する能力に与える影響を評価した。
Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかったが,CNNは文脈外情報を無視し,オクルージョンベンチマークを改善するための新機能を新たに取得し,VTがすでに持っている能力をCNNでシミュレートする方法であると結論づける。
パッチミキシング実装と提案するデータセットを一般向けにリリースします。
プロジェクトページ: https://arielnlee.github.io/PatchMixing/
関連論文リスト
- Vision Conformer: Incorporating Convolutions into Vision Transformer
Layers [6.09170287691728]
視覚変換器(ViT)は、画像認識タスクに変換器を適応させる。
ViTの問題点の1つは、画像構造に対する帰納的バイアスの欠如である。
本稿では,ViT内での畳み込み層の利用を提案する。
論文 参考訳(メタデータ) (2023-04-27T07:27:44Z) - Vision Transformers provably learn spatial structure [34.61885883486938]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
論文 参考訳(メタデータ) (2022-10-13T19:53:56Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。