論文の概要: Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer
- arxiv url: http://arxiv.org/abs/2403.18063v1
- Date: Tue, 26 Mar 2024 19:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:05:06.657864
- Title: Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer
- Title(参考訳): スペクトル畳み込み変換器:ビジョン変換器における実対複素多視点スペクトル演算器の調和
- Authors: Badri N. Patro, Vinay P. Namboodiri, Vijay S. Agneeswaran,
- Abstract要約: 我々は、ローカル、グローバル、および長距離依存という3つの多様なデータビューの組み合わせを提唱する。
ローカル情報をキャプチャするために、初期層に畳み込み演算子を使用します。
SCT-C-smallはImageNetデータセットに最先端のパフォーマンスを与え、84.5%のトップ1精度に達することを示す。
- 参考スコア(独自算出の注目度): 25.16607687821087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers used in vision have been investigated through diverse architectures - ViT, PVT, and Swin. These have worked to improve the attention mechanism and make it more efficient. Differently, the need for including local information was felt, leading to incorporating convolutions in transformers such as CPVT and CvT. Global information is captured using a complex Fourier basis to achieve global token mixing through various methods, such as AFNO, GFNet, and Spectformer. We advocate combining three diverse views of data - local, global, and long-range dependence. We also investigate the simplest global representation using only the real domain spectral representation - obtained through the Hartley transform. We use a convolutional operator in the initial layers to capture local information. Through these two contributions, we are able to optimize and obtain a spectral convolution transformer (SCT) that provides improved performance over the state-of-the-art methods while reducing the number of parameters. Through extensive experiments, we show that SCT-C-small gives state-of-the-art performance on the ImageNet dataset and reaches 84.5\% top-1 accuracy, while SCT-C-Large reaches 85.9\% and SCT-C-Huge reaches 86.4\%. We evaluate SCT on transfer learning on datasets such as CIFAR-10, CIFAR-100, Oxford Flower, and Stanford Car. We also evaluate SCT on downstream tasks i.e. instance segmentation on the MSCOCO dataset. The project page is available on this webpage.\url{https://github.com/badripatro/sct}
- Abstract(参考訳): 視覚で使用されるトランスフォーマーは、ViT、PVT、Swinといった様々なアーキテクチャを通して研究されている。
これらは注意機構の改善と効率の向上に役立ちました。
異なることに、ローカル情報を含める必要性が感じられ、CPVTやCvTのようなトランスフォーマーに畳み込みが組み込まれた。
グローバル情報は複雑なフーリエベースを使用してキャプチャされ、AFNO、GFNet、Spectformerといった様々な方法でグローバルトークンの混合を実現する。
我々は、ローカル、グローバル、および長距離依存という3つの多様なデータビューの組み合わせを提唱する。
また、ハートレー変換によって得られる実領域スペクトル表現のみを用いて、最も単純な大域表現についても検討する。
ローカル情報をキャプチャするために、初期層に畳み込み演算子を使用します。
これら2つのコントリビューションにより、パラメータ数を削減しつつ、最先端手法よりも優れた性能を提供するスペクトル畳み込み変換器(SCT)を最適化し、得られる。
SCT-C-Largeは85.9\%、SCT-C-Hugeは86.4\%である。
我々は,CIFAR-10,CIFAR-100,Oxford Flower,Stanford Carなどのデータセットを用いた移動学習におけるSCTの評価を行った。
また、下流タスク、すなわち、MSCOCOデータセット上のインスタンスセグメンテーションのSCTを評価する。
プロジェクトのページは、このWebページにある。
\url{https://github.com/badripatro/sct}
関連論文リスト
- ParFormer: Vision Transformer Baseline with Parallel Local Global Token Mixer and Convolution Attention Patch Embedding [3.4140488674588614]
ParFormerは、異なるトークンミキサーを単一のステージに組み込むことができる拡張トランスフォーマーアーキテクチャである。
我々は、トークンミキサー抽出を改善するために標準パッチ埋め込みの強化として、CAPE(Convolutional Attention Patch Embedding)を提供する。
11M,23M,34Mのモデル変種はそれぞれ80.4%,82.1%,83.1%のスコアを得た。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - SpectFormer: Frequency and Attention is what you need in a Vision
Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:27:17Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。