論文の概要: Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer
- arxiv url: http://arxiv.org/abs/2403.18063v1
- Date: Tue, 26 Mar 2024 19:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:05:06.657864
- Title: Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer
- Title(参考訳): スペクトル畳み込み変換器:ビジョン変換器における実対複素多視点スペクトル演算器の調和
- Authors: Badri N. Patro, Vinay P. Namboodiri, Vijay S. Agneeswaran,
- Abstract要約: 我々は、ローカル、グローバル、および長距離依存という3つの多様なデータビューの組み合わせを提唱する。
ローカル情報をキャプチャするために、初期層に畳み込み演算子を使用します。
SCT-C-smallはImageNetデータセットに最先端のパフォーマンスを与え、84.5%のトップ1精度に達することを示す。
- 参考スコア(独自算出の注目度): 25.16607687821087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers used in vision have been investigated through diverse architectures - ViT, PVT, and Swin. These have worked to improve the attention mechanism and make it more efficient. Differently, the need for including local information was felt, leading to incorporating convolutions in transformers such as CPVT and CvT. Global information is captured using a complex Fourier basis to achieve global token mixing through various methods, such as AFNO, GFNet, and Spectformer. We advocate combining three diverse views of data - local, global, and long-range dependence. We also investigate the simplest global representation using only the real domain spectral representation - obtained through the Hartley transform. We use a convolutional operator in the initial layers to capture local information. Through these two contributions, we are able to optimize and obtain a spectral convolution transformer (SCT) that provides improved performance over the state-of-the-art methods while reducing the number of parameters. Through extensive experiments, we show that SCT-C-small gives state-of-the-art performance on the ImageNet dataset and reaches 84.5\% top-1 accuracy, while SCT-C-Large reaches 85.9\% and SCT-C-Huge reaches 86.4\%. We evaluate SCT on transfer learning on datasets such as CIFAR-10, CIFAR-100, Oxford Flower, and Stanford Car. We also evaluate SCT on downstream tasks i.e. instance segmentation on the MSCOCO dataset. The project page is available on this webpage.\url{https://github.com/badripatro/sct}
- Abstract(参考訳): 視覚で使用されるトランスフォーマーは、ViT、PVT、Swinといった様々なアーキテクチャを通して研究されている。
これらは注意機構の改善と効率の向上に役立ちました。
異なることに、ローカル情報を含める必要性が感じられ、CPVTやCvTのようなトランスフォーマーに畳み込みが組み込まれた。
グローバル情報は複雑なフーリエベースを使用してキャプチャされ、AFNO、GFNet、Spectformerといった様々な方法でグローバルトークンの混合を実現する。
我々は、ローカル、グローバル、および長距離依存という3つの多様なデータビューの組み合わせを提唱する。
また、ハートレー変換によって得られる実領域スペクトル表現のみを用いて、最も単純な大域表現についても検討する。
ローカル情報をキャプチャするために、初期層に畳み込み演算子を使用します。
これら2つのコントリビューションにより、パラメータ数を削減しつつ、最先端手法よりも優れた性能を提供するスペクトル畳み込み変換器(SCT)を最適化し、得られる。
SCT-C-Largeは85.9\%、SCT-C-Hugeは86.4\%である。
我々は,CIFAR-10,CIFAR-100,Oxford Flower,Stanford Carなどのデータセットを用いた移動学習におけるSCTの評価を行った。
また、下流タスク、すなわち、MSCOCOデータセット上のインスタンスセグメンテーションのSCTを評価する。
プロジェクトのページは、このWebページにある。
\url{https://github.com/badripatro/sct}
関連論文リスト
- Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters [12.182070604073585]
CNNは、画像のセマンティック情報を完全に活用する能力を制限して、長距離依存のモデリングに苦労する。
変換器は二次計算の複雑さによって妨げられる。
本稿では,Mambaアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2024-09-12T10:01:33Z) - LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation [0.9831489366502301]
State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
論文 参考訳(メタデータ) (2024-08-26T17:02:25Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。