論文の概要: Convolutional Xformers for Vision
- arxiv url: http://arxiv.org/abs/2201.10271v1
- Date: Tue, 25 Jan 2022 12:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 23:20:40.781807
- Title: Convolutional Xformers for Vision
- Title(参考訳): 視覚のための畳み込みxフォーマ
- Authors: Pranav Jeevan and Amit sethi
- Abstract要約: 視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像処理において限られた実用的利用しか見つからない。
限られた使用理由としては、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットと計算リソースの必要性がある。
本稿では,これらの制約を克服するために,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
二次的注意をPerformer,Nystr"omformer,Linear Transformerなどの線形注意機構に置き換えてGPU使用量を削減する。
- 参考スコア(独自算出の注目度): 2.7188347260210466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have found only limited practical use in
processing images, in spite of their state-of-the-art accuracy on certain
benchmarks. The reason for their limited use include their need for larger
training datasets and more computational resources compared to convolutional
neural networks (CNNs), owing to the quadratic complexity of their
self-attention mechanism. We propose a linear attention-convolution hybrid
architecture -- Convolutional X-formers for Vision (CXV) -- to overcome these
limitations. We replace the quadratic attention with linear attention
mechanisms, such as Performer, Nystr\"omformer, and Linear Transformer, to
reduce its GPU usage. Inductive prior for image data is provided by
convolutional sub-layers, thereby eliminating the need for class token and
positional embeddings used by the ViTs. We also propose a new training method
where we use two different optimizers during different phases of training and
show that it improves the top-1 image classification accuracy across different
architectures. CXV outperforms other architectures, token mixers (e.g.
ConvMixer, FNet and MLP Mixer), transformer models (e.g. ViT, CCT, CvT and
hybrid Xformers), and ResNets for image classification in scenarios with
limited data and GPU resources (cores, RAM, power).
- Abstract(参考訳): 視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像の処理に限られている。
限定的な使用の理由は、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットとより多くの計算リソースを必要とするためである。
本稿では,これらの制約を克服するため,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
我々は,gpu使用量を削減するために,アクタ,nystr\"omformer,リニアトランスフォーマタなどのリニアアテンション機構を二次アテンションに置き換えた。
画像データのインダクティブプリエントは畳み込みサブレイヤによって提供され、vitsが使用するクラストークンや位置埋め込みの必要性がなくなる。
また,異なるトレーニングフェーズで2つの異なるオプティマイザを使用する新しいトレーニング手法を提案し,異なるアーキテクチャにおけるtop-1画像分類精度の向上を示す。
CXVは、他のアーキテクチャ、トークンミキサー(例えば、ConvMixer、FNet、MLPミキサー)、トランスフォーマーモデル(例えば、ViT、CCT、CvT、ハイブリッドXformers)、限られたデータとGPUリソース(コア、RAM、パワー)のシナリオにおける画像分類のためのResNetsなどより優れている。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。