論文の概要: gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted
Window
- arxiv url: http://arxiv.org/abs/2208.11718v2
- Date: Sat, 2 Sep 2023 08:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:15:46.668943
- Title: gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted
Window
- Title(参考訳): gSwin: シフトウィンドウの階層構造を持つ拡張MLPビジョンモデル
- Authors: Mocho Go, Hideyuki Tachibana
- Abstract要約: 本稿では,Swin Transformerと(複数頭)gMLPを組み合わせたgSwinを提案する。
我々のgSwinは、モデルサイズが小さいSwin Transformerよりも、画像分類、オブジェクト検出、セマンティックセマンティックセグメンテーションの3つの視覚タスクにおいて、より正確な精度を実現することができる。
- 参考スコア(独自算出の注目度): 6.599344783327055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the success in language domain, the self-attention mechanism
(transformer) is adopted in the vision domain and achieving great success
recently. Additionally, as another stream, multi-layer perceptron (MLP) is also
explored in the vision domain. These architectures, other than traditional
CNNs, have been attracting attention recently, and many methods have been
proposed. As one that combines parameter efficiency and performance with
locality and hierarchy in image recognition, we propose gSwin, which merges the
two streams; Swin Transformer and (multi-head) gMLP. We showed that our gSwin
can achieve better accuracy on three vision tasks, image classification, object
detection and semantic segmentation, than Swin Transformer, with smaller model
size.
- Abstract(参考訳): 言語領域の成功に続いて、自己認識機構(トランスフォーマー)がビジョン領域に採用され、近年大きな成功を収めている。
さらに、他のストリームとして、視覚領域において多層パーセプトロン(MLP)も探索される。
従来のCNN以外のこれらのアーキテクチャは近年注目を集めており、多くの手法が提案されている。
パラメータ効率と性能を画像認識の局所性と階層性に結びつけるものとして,2つのストリーム,Swin Transformerと(マルチヘッド)gMLPを組み合わせたgSwinを提案する。
我々は,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションの3つのタスクにおいて,モデルサイズが小さく,より精度の高いgSwinを実現できることを示した。
関連論文リスト
- GoogLe2Net: Going Transverse with Convolutions [0.0]
本稿では,GoogLe2Netと呼ばれる新しいCNNアーキテクチャを提案する。
ResFRI(Reslit Feature Reutilization Inception)またはSplit-ResFRI(Split Feature Reutilization Inception)から構成される。
当社のGoogLe2Netは、畳み込みレイヤのグループによってキャプチャされた情報を再利用し、きめ細かいレベルでマルチスケールの機能を表現することができます。
論文 参考訳(メタデータ) (2023-01-01T15:16:10Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。