論文の概要: Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets
- arxiv url: http://arxiv.org/abs/2210.14319v1
- Date: Tue, 25 Oct 2022 20:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:50:37.063866
- Title: Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets
- Title(参考訳): 小型データセット上での視覚変換器の入力情報密度の増大
- Authors: Xiangyu Chen, Ying Qin, Wenju Xu, Andr\'es M. Bur, Cuncong Zhong,
Guanghui Wang
- Abstract要約: ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 26.257612622358614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have attracted a lot of attention recently since the
successful implementation of Vision Transformer (ViT) on vision tasks. With
vision Transformers, specifically the multi-head self-attention modules,
networks can capture long-term dependencies inherently. However, these
attention modules normally need to be trained on large datasets, and vision
Transformers show inferior performance on small datasets when training from
scratch compared with widely dominant backbones like ResNets. Note that the
Transformer model was first proposed for natural language processing, which
carries denser information than natural images. To boost the performance of
vision Transformers on small datasets, this paper proposes to explicitly
increase the input information density in the frequency domain. Specifically,
we introduce selecting channels by calculating the channel-wise heatmaps in the
frequency domain using Discrete Cosine Transform (DCT), reducing the size of
input while keeping most information and hence increasing the information
density. As a result, 25% fewer channels are kept while better performance is
achieved compared with previous work. Extensive experiments demonstrate the
effectiveness of the proposed approach on five small-scale datasets, including
CIFAR-10/100, SVHN, Flowers-102, and Tiny ImageNet. The accuracy has been
boosted up to 17.05% with Swin and Focal Transformers. Codes are available at
https://github.com/xiangyu8/DenseVT.
- Abstract(参考訳): ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
ビジョントランスフォーマー、特にマルチヘッド・セルフアテンションモジュールにより、ネットワークは本質的に長期的な依存関係を捉えることができる。
しかし、これらのアテンションモジュールは通常、大きなデータセットでトレーニングする必要がある。また、ビジョントランスフォーマーは、スクラッチからトレーニングする際に小さなデータセットに対して、resnetのような広く支配的なバックボーンに比べて劣るパフォーマンスを示している。
トランスフォーマーモデルは、自然画像よりも密度の高い情報を運ぶ自然言語処理のために最初に提案された。
本稿では,小型データセットにおける視覚トランスフォーマーの性能を向上させるために,周波数領域における入力情報密度を明示的に増加させる手法を提案する。
具体的には、離散コサイン変換(dct)を用いて周波数領域内のチャネル毎のヒートマップを計算し、多くの情報を保持しながら入力サイズを削減し、情報密度を増加させることにより、選択チャネルを導入する。
その結果、従来の作業に比べてパフォーマンスが向上する一方で、25%のチャンネルが維持される。
大規模な実験では、CIFAR-10/100、SVHN、Flowers-102、Tiny ImageNetを含む5つの小規模データセットに対して提案手法の有効性が示されている。
精度はSwinとFocal Transformersで17.05%まで向上した。
コードはhttps://github.com/xiangyu8/densevtで入手できる。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。