論文の概要: Searching the Search Space of Vision Transformer
- arxiv url: http://arxiv.org/abs/2111.14725v1
- Date: Mon, 29 Nov 2021 17:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:34:31.816623
- Title: Searching the Search Space of Vision Transformer
- Title(参考訳): 視覚トランスフォーマの探索空間の探索
- Authors: Minghao Chen, Kan Wu, Bolin Ni, Houwen Peng, Bei Liu, Jianlong Fu,
Hongyang Chao, Haibin Ling
- Abstract要約: 視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 98.96601221383209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer has shown great visual representation power in substantial
vision tasks such as recognition and detection, and thus been attracting
fast-growing efforts on manually designing more effective architectures. In
this paper, we propose to use neural architecture search to automate this
process, by searching not only the architecture but also the search space. The
central idea is to gradually evolve different search dimensions guided by their
E-T Error computed using a weight-sharing supernet. Moreover, we provide design
guidelines of general vision transformers with extensive analysis according to
the space searching process, which could promote the understanding of vision
transformer. Remarkably, the searched models, named S3 (short for Searching the
Search Space), from the searched space achieve superior performance to recently
proposed models, such as Swin, DeiT and ViT, when evaluated on ImageNet. The
effectiveness of S3 is also illustrated on object detection, semantic
segmentation and visual question answering, demonstrating its generality to
downstream vision and vision-language tasks. Code and models will be available
at https://github.com/microsoft/Cream.
- Abstract(参考訳): 視覚変換器は、認識や検出などの視覚的なタスクにおいて大きな視覚的表現力を示しており、より効果的なアーキテクチャを手動で設計する取り組みが急速に進んでいる。
本稿では,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することでニューラルアーキテクチャ検索を提案する。
中心となる考え方は、ウェイトシェアリングスーパーネットを用いて計算されたE-Tエラーによって導かれる様々な探索次元を徐々に進化させることである。
さらに,視覚トランスフォーマの理解を促進するため,空間探索プロセスに応じた広範囲な解析を行い,一般視覚トランスフォーマの設計ガイドラインを提供する。
驚くべきことに、検索空間から s3 ( search space の略) と呼ばれる検索されたモデルは、imagenet で評価すると、最近提案された swin、deit、vit などのモデルよりも優れた性能を発揮する。
S3の有効性は、オブジェクトの検出、セマンティックセグメンテーション、視覚的質問応答にも説明され、下流の視覚と視覚言語タスクへの一般化を示す。
コードとモデルはhttps://github.com/microsoft/creamで入手できる。
関連論文リスト
- ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - GLiT: Neural Architecture Search for Global and Local Image Transformer [114.8051035856023]
画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
論文 参考訳(メタデータ) (2021-07-07T00:48:09Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape
Recognition [16.13826056628379]
3Dシェイプ認識では、人間の視点を活かして3Dシェイプを解析し、大きな成果を上げています。
マルチビュー3D形状認識におけるアーキテクチャを最適化するために特に設計された,Auto-MVCNNというニューラルアーキテクチャ検索手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。