論文の概要: UniNeXt: Exploring A Unified Architecture for Vision Recognition
- arxiv url: http://arxiv.org/abs/2304.13700v2
- Date: Mon, 1 May 2023 07:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:47:16.390698
- Title: UniNeXt: Exploring A Unified Architecture for Vision Recognition
- Title(参考訳): UniNeXt: 視覚認識のための統一アーキテクチャ
- Authors: Fangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang
- Abstract要約: 視覚バックボーンのための汎用アーキテクチャUniNeXtを提案する。
我々は、空間トークンミキサーを、畳み込みモジュールとアテンションモジュールの両方を含む、様々な典型的なモダンなデザインでインスタンス化する。
驚いたことに、我々のUniNeXtは、従来の最先端技術よりも優れた、素直なローカルウィンドウアテンションを備えています。
- 参考スコア(独自算出の注目度): 10.102402110967374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have shown great potential in computer vision tasks. Most
recent works have focused on elaborating the spatial token mixer for
performance gains. However, we observe that a well-designed general
architecture can significantly improve the performance of the entire backbone,
regardless of which spatial token mixer is equipped. In this paper, we propose
UniNeXt, an improved general architecture for the vision backbone. To verify
its effectiveness, we instantiate the spatial token mixer with various typical
and modern designs, including both convolution and attention modules. Compared
with the architecture in which they are first proposed, our UniNeXt
architecture can steadily boost the performance of all the spatial token
mixers, and narrows the performance gap among them. Surprisingly, our UniNeXt
equipped with naive local window attention even outperforms the previous
state-of-the-art. Interestingly, the ranking of these spatial token mixers also
changes under our UniNeXt, suggesting that an excellent spatial token mixer may
be stifled due to a suboptimal general architecture, which further shows the
importance of the study on the general architecture of vision backbone. All
models and codes will be publicly available.
- Abstract(参考訳): ビジョントランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。
最近の研究は、パフォーマンス向上のための空間トークンミキサーの開発に重点を置いている。
しかし、よく設計された汎用アーキテクチャは、どの空間トークンミキサーを備えているかに関わらず、バックボーン全体の性能を大幅に向上させることができる。
本稿では,ビジョンバックボーンの汎用アーキテクチャを改良したuninextを提案する。
その効果を検証するために,コンボリューションモジュールとアテンションモジュールの両方を含む,様々な典型的なデザインと現代的なデザインで空間トークンミキサーをインスタンス化する。
最初に提案されたアーキテクチャと比較して、私たちのuninextアーキテクチャは、すべての空間トークンミキサーのパフォーマンスを着実に向上させ、それらの間のパフォーマンスギャップを狭めます。
驚いたことに、われわれのUniNeXtは、従来の最先端の窓ガラスよりも優れている。
興味深いことに、これらの空間トークンミキサーのランキングは、UniNeXtの下でも変化しており、優れた空間トークンミキサーは、最適下限の一般的なアーキテクチャのため、緩和される可能性があることを示唆している。
すべてのモデルとコードは公開されます。
関連論文リスト
- Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - NASiam: Efficient Representation Learning using Neural Architecture
Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。
NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。
NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文 参考訳(メタデータ) (2023-01-31T19:48:37Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。