論文の概要: Conviformers: Convolutionally guided Vision Transformer
- arxiv url: http://arxiv.org/abs/2208.08900v1
- Date: Wed, 17 Aug 2022 13:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 12:58:41.833565
- Title: Conviformers: Convolutionally guided Vision Transformer
- Title(参考訳): コンヴィフォーマー:畳み込み誘導型視覚変換器
- Authors: Mohit Vaishnav, Thomas Fel, Ivan Felipe Rodr{\i}guez and Thomas Serre
- Abstract要約: 本稿では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素を詳細に分析し,解説する。
Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリや計算コストを犠牲にすることなく高解像度画像を処理できる。
単純だが効果的なアプローチで、Herbarium 202xとiNaturalist 2019データセットでSoTAを達成しました。
- 参考スコア(独自算出の注目度): 5.964436882344729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision transformers are nowadays the de-facto preference for image
classification tasks. There are two broad categories of classification tasks,
fine-grained and coarse-grained. In fine-grained classification, the necessity
is to discover subtle differences due to the high level of similarity between
sub-classes. Such distinctions are often lost as we downscale the image to save
the memory and computational cost associated with vision transformers (ViT). In
this work, we present an in-depth analysis and describe the critical components
for developing a system for the fine-grained categorization of plants from
herbarium sheets. Our extensive experimental analysis indicated the need for a
better augmentation technique and the ability of modern-day neural networks to
handle higher dimensional images. We also introduce a convolutional transformer
architecture called Conviformer which, unlike the popular Vision Transformer
(ConViT), can handle higher resolution images without exploding memory and
computational cost. We also introduce a novel, improved pre-processing
technique called PreSizer to resize images better while preserving their
original aspect ratios, which proved essential for classifying natural plants.
With our simple yet effective approach, we achieved SoTA on Herbarium 202x and
iNaturalist 2019 dataset.
- Abstract(参考訳): 視覚トランスフォーマーは現在、画像分類タスクのデファクトの好みである。
分類タスクには、細粒度と粗粒度の2種類がある。
細粒度分類では,サブクラス間の類似度が高いため,微妙な違いを見出す必要がある。
このような区別は、視覚変換器(ViT)に関連するメモリと計算コストを節約するために、イメージをダウンスケールするときにしばしば失われる。
本研究では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素について,詳細な分析と解説を行う。
広範な実験分析により,高次元画像を扱うために,より優れた拡張技術と現代のニューラルネットワークの必要性が示された。
また、Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリを爆発させることなく高解像度画像を処理できる。
また,植物を分類する上で欠かせないアスペクト比を保ちながら,画像のサイズを改良するPreSizerという新しい前処理手法も導入した。
単純かつ効果的なアプローチで、herbarium 202xとinaturalist 2019データセットでsataを達成しました。
関連論文リスト
- Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Convolutional Xformers for Vision [2.7188347260210466]
視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像処理において限られた実用的利用しか見つからない。
限られた使用理由としては、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットと計算リソースの必要性がある。
本稿では,これらの制約を克服するために,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
二次的注意をPerformer,Nystr"omformer,Linear Transformerなどの線形注意機構に置き換えてGPU使用量を削減する。
論文 参考訳(メタデータ) (2022-01-25T12:32:09Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。