論文の概要: You Only Look at One Sequence: Rethinking Transformer in Vision through
Object Detection
- arxiv url: http://arxiv.org/abs/2106.00666v1
- Date: Tue, 1 Jun 2021 17:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:41:04.759207
- Title: You Only Look at One Sequence: Rethinking Transformer in Vision through
Object Detection
- Title(参考訳): 1つのシーケンスだけを見る:オブジェクト検出による視界のトランスフォーマーの再考
- Authors: Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui
Wu, Jianwei Niu, Wenyu Liu
- Abstract要約: You Only Look at One Sequence(ユー・オン・ワン・シークエンス・オブ・ワン・シークエンス)は、ナイーブ・ビジョン・トランスフォーマーに基づく一連の物体検出モデルである。
中間サイズのImageNet-$1k$データセットで事前トレーニングされたYOLOSは、すでに競合するオブジェクト検出性能を達成できるのみであることがわかった。
- 参考スコア(独自算出の注目度): 40.60384049195514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Transformer perform $2\mathrm{D}$ object-level recognition from a pure
sequence-to-sequence perspective with minimal knowledge about the $2\mathrm{D}$
spatial structure? To answer this question, we present You Only Look at One
Sequence (YOLOS), a series of object detection models based on the na\"ive
Vision Transformer with the fewest possible modifications as well as inductive
biases. We find that YOLOS pre-trained on the mid-sized ImageNet-$1k$ dataset
only can already achieve competitive object detection performance on COCO,
\textit{e.g.}, YOLOS-Base directly adopted from BERT-Base can achieve $42.0$
box AP. We also discuss the impacts as well as limitations of current pre-train
schemes and model scaling strategies for Transformer in vision through object
detection. Code and model weights are available at
\url{https://github.com/hustvl/YOLOS}.
- Abstract(参考訳): transformerは$2\mathrm{d}$の空間構造に関する最小限の知識で、純粋なシーケンスからシーケンスまでの視点でオブジェクトレベルの認識を実行できるか?
この疑問に答えるために、我々は、インダクティブバイアスだけでなく、最も少ない修正が可能な na\"ive Vision Transformer に基づく一連のオブジェクト検出モデルである You Only Look at One Sequence (YOLOS) を提示する。
中間サイズのImageNet-$1k$データセットで事前トレーニングされたYOLOSは,COCO, \textit{e.g.の競合オブジェクト検出性能をすでに達成できるのみである。
BERT-Baseから直接採用されているYOLOS-Baseは42.0ドルのボックスAPを達成できます。
また、オブジェクト検出を通じて、トランスフォーマーの視界における現在の事前訓練スキームとモデルスケーリング戦略の影響についても論じる。
コードとモデルの重み付けは \url{https://github.com/hustvl/YOLOS} で確認できる。
関連論文リスト
- An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - Exploring Plain Vision Transformer Backbones for Object Detection [45.11365392273572]
我々は、物体検出のためのバックボーンネットワークとして、平らで非階層型視覚変換器(ViT)を探索する。
この設計により、オリジナルのViTアーキテクチャは、事前トレーニングのために階層的なバックボーンを再設計することなく、オブジェクト検出のために微調整できる。
微調整のための最小限の適応により、我々のプレーンバックボーン検出器は競争的な結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T17:58:23Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。