論文の概要: Vision Conformer: Incorporating Convolutions into Vision Transformer
Layers
- arxiv url: http://arxiv.org/abs/2304.13991v1
- Date: Thu, 27 Apr 2023 07:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:04:46.296833
- Title: Vision Conformer: Incorporating Convolutions into Vision Transformer
Layers
- Title(参考訳): Vision Conformer: Vision Transformer層にコンボリューションを組み込む
- Authors: Brian Kenji Iwana, Akihiro Kusuda
- Abstract要約: 視覚変換器(ViT)は、画像認識タスクに変換器を適応させる。
ViTの問題点の1つは、画像構造に対する帰納的バイアスの欠如である。
本稿では,ViT内での畳み込み層の利用を提案する。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are popular neural network models that use layers of
self-attention and fully-connected nodes with embedded tokens. Vision
Transformers (ViT) adapt transformers for image recognition tasks. In order to
do this, the images are split into patches and used as tokens. One issue with
ViT is the lack of inductive bias toward image structures. Because ViT was
adapted for image data from language modeling, the network does not explicitly
handle issues such as local translations, pixel information, and information
loss in the structures and features shared by multiple patches. Conversely,
Convolutional Neural Networks (CNN) incorporate this information. Thus, in this
paper, we propose the use of convolutional layers within ViT. Specifically, we
propose a model called a Vision Conformer (ViC) which replaces the Multi-Layer
Perceptron (MLP) in a ViT layer with a CNN. In addition, to use the CNN, we
proposed to reconstruct the image data after the self-attention in a reverse
embedding layer. Through the evaluation, we demonstrate that the proposed
convolutions help improve the classification ability of ViT.
- Abstract(参考訳): トランスフォーマーは、組み込みトークンを備えた自己アテンションと完全接続ノードのレイヤを使用する一般的なニューラルネットワークモデルである。
視覚トランスフォーマー(vit)は画像認識タスクにトランスフォーマーを適応させる。
これを行うために、イメージはパッチに分割され、トークンとして使用される。
ViTの1つの問題は、画像構造に対する帰納バイアスの欠如である。
ViTは言語モデリングからの画像データに適応しているため、ローカル翻訳、ピクセル情報、複数パッチで共有される構造や特徴の情報損失といった問題に明示的に対応していない。
逆に、畳み込みニューラルネットワーク(CNN)はこの情報を取り入れている。
そこで本稿では,ViT内における畳み込み層の利用を提案する。
具体的には,vit層の多層パーセプトロン(mlp)をcnnに置き換える視覚適合器(vic)と呼ばれるモデルを提案する。
また,cnnを利用するために,逆埋め込み層における自己付着後の画像データの再構成を提案する。
評価を通じて,提案した畳み込みは,ViTの分類能力の向上に役立つことを示す。
関連論文リスト
- Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing [64.7892681641764]
我々は視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)を訓練する
Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかった。
我々は、このトレーニング手法が、VTがすでに持っている能力をCNNでシミュレートする方法であると結論付けている。
論文 参考訳(メタデータ) (2023-06-30T17:59:53Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。