論文の概要: Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2106.12368v1
- Date: Wed, 23 Jun 2021 13:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:20:47.706062
- Title: Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition
- Title(参考訳): Vision Permutator: 視覚認識のための可変MLP様アーキテクチャ
- Authors: Qibin Hou, Zihang Jiang, Li Yuan, Ming-Ming Cheng, Shuicheng Yan,
Jiashi Feng
- Abstract要約: 視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
- 参考スコア(独自算出の注目度): 185.80889967154963
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present Vision Permutator, a conceptually simple and data
efficient MLP-like architecture for visual recognition. By realizing the
importance of the positional information carried by 2D feature representations,
unlike recent MLP-like models that encode the spatial information along the
flattened spatial dimensions, Vision Permutator separately encodes the feature
representations along the height and width dimensions with linear projections.
This allows Vision Permutator to capture long-range dependencies along one
spatial direction and meanwhile preserve precise positional information along
the other direction. The resulting position-sensitive outputs are then
aggregated in a mutually complementing manner to form expressive
representations of the objects of interest. We show that our Vision Permutators
are formidable competitors to convolutional neural networks (CNNs) and vision
transformers. Without the dependence on spatial convolutions or attention
mechanisms, Vision Permutator achieves 81.5% top-1 accuracy on ImageNet without
extra large-scale training data (e.g., ImageNet-22k) using only 25M learnable
parameters, which is much better than most CNNs and vision transformers under
the same model size constraint. When scaling up to 88M, it attains 83.2% top-1
accuracy. We hope this work could encourage research on rethinking the way of
encoding spatial information and facilitate the development of MLP-like models.
Code is available at https://github.com/Andrew-Qibin/VisionPermutator.
- Abstract(参考訳): 本稿では,視覚認識のための概念的にシンプルでデータ効率のよいMLP型アーキテクチャであるVision Permutatorを提案する。
平面化された空間次元に沿って空間情報を符号化する最近のMLPのようなモデルとは異なり、2次元特徴表現が持つ位置情報の重要性を実現することにより、視覚パーミュータは、高さと幅の表現を線形投影で別々に符号化する。
これにより、Vision Permutatorは1つの空間方向に沿った長距離依存関係をキャプチャし、他方の方向に沿った正確な位置情報を保存できる。
結果として得られる位置感性出力は相互補完的な方法で集約され、興味のある対象の表現表現を形成する。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
空間畳み込みやアテンション機構に依存せずに、Vision Permutatorは同じモデルサイズ制約の下でほとんどのCNNや視覚変換器よりもはるかに優れた25Mの学習可能なパラメータを使用して、大規模なトレーニングデータ(例えばImageNet-22k)を使わずに、ImageNet上で81.5%のトップ-1精度を達成する。
88Mまでスケールアップすると、83.2%のトップ1の精度に達する。
本研究は,空間情報のエンコーディング方法の再考と,MLPのようなモデルの開発を促進することを目的としている。
コードはhttps://github.com/Andrew-Qibin/VisionPermutator.comで入手できる。
関連論文リスト
- Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。