論文の概要: UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP
- arxiv url: http://arxiv.org/abs/2110.04035v1
- Date: Fri, 8 Oct 2021 11:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 15:05:20.233379
- Title: UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP
- Title(参考訳): UniNet: 畳み込み、トランスフォーマー、MLPを備えた統一アーキテクチャ検索
- Authors: Jihao Liu and Hongsheng Li and Guanglu Song and Xin Huang and Yu Liu
- Abstract要約: 本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
- 参考スコア(独自算出の注目度): 62.401161377258234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer and multi-layer perceptron (MLP) architectures have
achieved impressive results on various vision tasks. A few works investigated
manually combining those operators to design visual network architectures, and
can achieve satisfactory performances to some extent. In this paper, we propose
to jointly search the optimal combination of convolution, transformer, and MLP
for building a series of all-operator network architectures with high
performances on visual tasks. We empirically identify that the widely-used
strided convolution or pooling based down-sampling modules become the
performance bottlenecks when the operators are combined to form a network. To
better tackle the global context captured by the transformer and MLP operators,
we propose two novel context-aware down-sampling modules, which can better
adapt to the global information encoded by transformer and MLP operators. To
this end, we jointly search all operators and down-sampling modules in a
unified search space. Notably, Our searched network UniNet (Unified Network)
outperforms state-of-the-art pure convolution-based architecture, EfficientNet,
and pure transformer-based architecture, Swin-Transformer, on multiple public
visual benchmarks, ImageNet classification, COCO object detection, and ADE20K
semantic segmentation.
- Abstract(参考訳): 近年,変圧器と多層パーセプトロン (MLP) アーキテクチャは様々な視覚タスクにおいて印象的な成果を上げている。
いくつかの研究は、これらの演算子を手動で組み合わせて視覚ネットワークアーキテクチャを設計し、ある程度の良好な性能を達成することができる。
本稿では,コンボリューション,トランスフォーマー,MLPの最適組み合わせを協調して探索し,視覚的タスクに高い性能を持つ全演算型ネットワークアーキテクチャを構築することを提案する。
我々は,運用者が結合してネットワークを形成すると,ダウンサンプリングモジュールが性能ボトルネックとなることを実証的に確認する。
トランスフォーマーとmlpオペレータが捉えたグローバルコンテキストをよりよく扱うために,トランスフォーマーとmlpオペレータによって符号化されたグローバル情報に適応可能な2つの新しいコンテキストアウェアダウンサンプリングモジュールを提案する。
この目的のために,全演算子とダウンサンプリングモジュールを統一検索空間で共同で探索する。
特に、検索ネットワークUniNet(Unified Network)は、複数の公開ビジュアルベンチマーク、イメージネット分類、COCOオブジェクト検出、ADE20Kセマンティックセマンティックセグメンテーションにおいて、最先端の純粋な畳み込みベースのアーキテクチャ、EfficientNet、純粋なトランスフォーマーベースのアーキテクチャ、Swin-Transformerより優れています。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [39.489331136395535]
本稿では,高性能ネットワークのための新しい統一アーキテクチャ探索手法を提案する。
まず、全く異なる探索可能作用素を統一形式でモデル化する。
次に、異なるタイプの演算子間のギャップを軽減するために、コンテキスト対応のダウンサンプリングモジュール(DSM)を提案する。
第3に,演算子とDSMを統合検索空間に統合し,強化学習に基づく探索アルゴリズムを用いて探索する。
論文 参考訳(メタデータ) (2022-07-12T09:30:58Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。