論文の概要: Scattering Vision Transformer: Spectral Mixing Matters
- arxiv url: http://arxiv.org/abs/2311.01310v2
- Date: Mon, 20 Nov 2023 13:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:55:39.431176
- Title: Scattering Vision Transformer: Spectral Mixing Matters
- Title(参考訳): Scattering Vision Transformer: スペクトル混合物質
- Authors: Badri N. Patro and Vijay Srinivas Agneeswaran
- Abstract要約: 本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークが組み込まれており、複雑な画像の詳細をキャプチャすることができる。
SVTはImageNetデータセットの最先端のパフォーマンスを達成し、多くのパラメータとFLOPSを大幅に削減した。
- 参考スコア(独自算出の注目度): 3.0665715162712837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision transformers have gained significant attention and achieved
state-of-the-art performance in various computer vision tasks, including image
classification, instance segmentation, and object detection. However,
challenges remain in addressing attention complexity and effectively capturing
fine-grained information within images. Existing solutions often resort to
down-sampling operations, such as pooling, to reduce computational cost.
Unfortunately, such operations are non-invertible and can result in information
loss. In this paper, we present a novel approach called Scattering Vision
Transformer (SVT) to tackle these challenges. SVT incorporates a spectrally
scattering network that enables the capture of intricate image details. SVT
overcomes the invertibility issue associated with down-sampling operations by
separating low-frequency and high-frequency components. Furthermore, SVT
introduces a unique spectral gating network utilizing Einstein multiplication
for token and channel mixing, effectively reducing complexity. We show that SVT
achieves state-of-the-art performance on the ImageNet dataset with a
significant reduction in a number of parameters and FLOPS. SVT shows 2\%
improvement over LiTv2 and iFormer. SVT-H-S reaches 84.2\% top-1 accuracy,
while SVT-H-B reaches 85.2\% (state-of-art for base versions) and SVT-H-L
reaches 85.7\% (again state-of-art for large versions). SVT also shows
comparable results in other vision tasks such as instance segmentation. SVT
also outperforms other transformers in transfer learning on standard datasets
such as CIFAR10, CIFAR100, Oxford Flower, and Stanford Car datasets. The
project page is available on this
webpage.\url{https://badripatro.github.io/svt/}.
- Abstract(参考訳): 視覚変換器は、画像分類、インスタンスセグメンテーション、オブジェクト検出など、様々なコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。
しかし、注意の複雑さに対処し、画像内のきめ細かな情報を効果的に捉えることが課題である。
既存のソリューションは、計算コストを削減するために、プールのようなダウンサンプリング操作を利用することが多い。
残念ながら、そのような操作は非可逆的であり、情報損失をもたらす可能性がある。
本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークがあり、複雑な画像の詳細をキャプチャできる。
SVTは低周波成分と高周波成分を分離することにより、ダウンサンプリング操作に伴う可逆性を克服する。
さらに、SVTは、トークンとチャネルの混合にアインシュタイン乗算を利用する独自のスペクトルゲーティングネットワークを導入し、複雑さを効果的に低減する。
SVT は ImageNet データセット上での最先端性能を実現し,パラメータや FLOPS の大幅な削減を実現している。
SVT は LiTv2 と iFormer よりも 2 % 改善されている。
SVT-H-Sは84.2\%、SVT-H-Bは85.2\%、SVT-H-Lは85.7\%である。
SVTはまた、インスタンスセグメンテーションのような他のビジョンタスクで同等の結果を示す。
SVTは、CIFAR10、CIFAR100、Oxford Flower、Stanford Carデータセットといった標準データセットでの転送学習において、他のトランスフォーマーよりも優れています。
プロジェクトページはこのwebページで閲覧できます。
https://badripatro.github.io/svt/} です。
関連論文リスト
- HaltingVT: Adaptive Token Halting Transformer for Efficient Video
Recognition [11.362605513514943]
ビデオにおけるアクション認識は、高い計算コストのために課題となる。
本稿では、冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。
Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成しました。
論文 参考訳(メタデータ) (2024-01-10T07:42:55Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Locality Guidance for Improving Vision Transformers on Tiny Datasets [17.352384588114838]
ビジョントランスフォーマー(VT)アーキテクチャはコンピュータビジョンではトレンドになりつつあるが、純粋なVTモデルは小さなデータセットではパフォーマンスが悪い。
本稿では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
論文 参考訳(メタデータ) (2022-07-20T16:41:41Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。