論文の概要: UPANets: Learning from the Universal Pixel Attention Networks
- arxiv url: http://arxiv.org/abs/2103.08640v1
- Date: Mon, 15 Mar 2021 18:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:30:04.543517
- Title: UPANets: Learning from the Universal Pixel Attention Networks
- Title(参考訳): UPANets: Universal Pixel Attention Networksから学ぶ
- Authors: Ching-Hsun Tseng, Shin-Jye Lee, Jia-Nan Feng, Shengzhong Mao, Yu-Ping
Wu, Jia-Yu Shang, Mou-Chung Tseng, and Xiao-Jun Zeng
- Abstract要約: そこで本研究では,ハイブリッドなスキップ・センス接続構造を有するupanetsを提案する。
実験では、UPANetsはCifar-10で96.47%、Cifar-100で80.29%、Tiny Imagenetで67.67%の精度で、最も有名で広く使われているSOTAを上回った。
- 参考スコア(独自算出の注目度): 6.970352368216021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among image classification, skip and densely-connection-based networks have
dominated most leaderboards. Recently, from the successful development of
multi-head attention in natural language processing, it is sure that now is a
time of either using a Transformer-like model or hybrid CNNs with attention.
However, the former need a tremendous resource to train, and the latter is in
the perfect balance in this direction. In this work, to make CNNs handle global
and local information, we proposed UPANets, which equips channel-wise attention
with a hybrid skip-densely-connection structure. Also, the extreme-connection
structure makes UPANets robust with a smoother loss landscape. In experiments,
UPANets surpassed most well-known and widely-used SOTAs with an accuracy of
96.47% in Cifar-10, 80.29% in Cifar-100, and 67.67% in Tiny Imagenet. Most
importantly, these performances have high parameters efficiency and only
trained in one customer-based GPU. We share implementing code of UPANets in
https://github.com/hanktseng131415go/UPANets.
- Abstract(参考訳): 画像分類では、スキップと密結合に基づくネットワークがほとんどのリーダーボードを支配している。
近年,自然言語処理における多面的注目の高まりから,トランスフォーマー型モデルやハイブリッドCNNのいずれにも注目が集まっていることが確認されている。
しかし、前者は訓練に膨大なリソースを必要とし、後者は、この方向への完全なバランスにある。
本研究では,cnnがグローバル情報とローカル情報を扱うために,チャネル毎の注意とハイブリッドなスキップ・センス接続構造を備えたupanetsを提案する。
また、極端な接続構造により、upanetsはよりスムーズなロスランドスケープで堅牢になる。
実験では、UPANetsはCifar-10で96.47%、Cifar-100で80.29%、Tiny Imagenetで67.67%の精度で、最も有名で広く使われているSOTAを上回った。
最も重要なことは、これらのパフォーマンスは高いパラメータ効率を持ち、1つの顧客ベースのGPUでのみトレーニングされることだ。
UPANetsの実装コードはhttps://github.com/hanktseng131415go/UPANetsで共有しています。
関連論文リスト
- DAS: A Deformable Attention to Capture Salient Information in CNNs [2.321323878201932]
自己注意は、グローバル情報へのアクセスを改善するが、計算オーバーヘッドを増大させる。
本稿では,DASと呼ばれる高速でシンプルな完全畳み込み手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T18:49:58Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Pixel Difference Networks for Efficient Edge Detection [71.03915957914532]
本稿では,Pixel Difference Network (PiDiNet) という軽量かつ効率的なエッジ検出アーキテクチャを提案する。
BSDS500、NYUD、Multicueのデータセットに関する大規模な実験が、その効果を示すために提供されている。
0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2021-08-16T10:42:59Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - CoAtNet: Marrying Convolution and Attention for All Data Sizes [93.93381069705546]
トランスフォーマーはモデル容量が大きくなる傾向にあるが、正しい帰納バイアスの欠如により、畳み込みネットワークよりも一般化が悪くなる可能性がある。
2つの重要な洞察から構築されたハイブリッドモデルのファミリーであるCoAtNetsを紹介します。
実験により、我々のCoAtNetsはリソース制約の異なる最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-06-09T04:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。