論文の概要: GLiT: Neural Architecture Search for Global and Local Image Transformer
- arxiv url: http://arxiv.org/abs/2107.02960v1
- Date: Wed, 7 Jul 2021 00:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 02:51:12.174194
- Title: GLiT: Neural Architecture Search for Global and Local Image Transformer
- Title(参考訳): GLiT:グローバルおよびローカル画像変換器のためのニューラルアーキテクチャ検索
- Authors: Boyu Chen, Peixia Li, Chuming Li, Baopu Li, Lei Bai, Chen Lin, Ming
Sun, Junjie yan, Wanli Ouyang
- Abstract要約: 画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
- 参考スコア(独自算出の注目度): 114.8051035856023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first Neural Architecture Search (NAS) method to find a
better transformer architecture for image recognition. Recently, transformers
without CNN-based backbones are found to achieve impressive performance for
image recognition. However, the transformer is designed for NLP tasks and thus
could be sub-optimal when directly used for image recognition. In order to
improve the visual representation ability for transformers, we propose a new
search space and searching algorithm. Specifically, we introduce a locality
module that models the local correlations in images explicitly with fewer
computational cost. With the locality module, our search space is defined to
let the search algorithm freely trade off between global and local information
as well as optimizing the low-level design choice in each module. To tackle the
problem caused by huge search space, a hierarchical neural architecture search
method is proposed to search the optimal vision transformer from two levels
separately with the evolutionary algorithm. Extensive experiments on the
ImageNet dataset demonstrate that our method can find more discriminative and
efficient transformer variants than the ResNet family (e.g., ResNet101) and the
baseline ViT for image classification.
- Abstract(参考訳): 画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャ探索(NAS)手法を提案する。
近年,cnnベースのバックボーンを持たないトランスフォーマーが画像認識の性能向上に寄与している。
しかし、トランスフォーマーはnlpタスク用に設計されており、画像認識に直接使用される場合に最適化される可能性がある。
トランスフォーマの視覚的表現能力を向上させるために,新たな探索空間と探索アルゴリズムを提案する。
具体的には,画像内の局所的相関を計算コストが少なく明示的にモデル化する局所性モジュールを提案する。
ローカリティモジュールでは、検索アルゴリズムがグローバル情報とローカル情報の間を自由に切り離し、各モジュールの低レベルな設計選択を最適化できるように、検索空間を定義します。
大規模な探索空間に起因する問題に対処するため,進化的アルゴリズムと別途2段階から最適な視覚変換器を探索する階層型ニューラルネットワーク探索法を提案する。
imagenetデータセットに関する広範な実験は、画像分類のためのresnetファミリ(例:resnet101)とベースラインvitよりも、より識別的で効率的なトランスフォーマーの変種を見つけることができることを示している。
関連論文リスト
- SRTransGAN: Image Super-Resolution using Transformer based Generative
Adversarial Network [16.243363392717434]
トランスをベースとしたエンコーダデコーダネットワークを2倍画像と4倍画像を生成するジェネレータとして提案する。
提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:22:39Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Evolutionary Neural Architecture Search for Transformer in Knowledge
Tracing [8.779571123401185]
本稿では,入力特徴選択を自動化する進化的ニューラルアーキテクチャ探索手法を提案し,ローカル・グローバル・コンテキスト・モデリングのバランシングを実現するためにどの操作を適用すべきかを自動決定する。
2つの最大かつ最も困難な教育データセットの実験結果は、提案手法によって発見されたアーキテクチャの有効性を実証している。
論文 参考訳(メタデータ) (2023-10-02T13:19:33Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。