論文の概要: SimPLR: A Simple and Plain Transformer for Object Detection and
Segmentation
- arxiv url: http://arxiv.org/abs/2310.05920v2
- Date: Fri, 1 Dec 2023 13:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:44:06.964292
- Title: SimPLR: A Simple and Plain Transformer for Object Detection and
Segmentation
- Title(参考訳): SimPLR: オブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器
- Authors: Duy-Kien Nguyen and Martin R. Oswald and Cees G. M. Snoek
- Abstract要約: 本研究では, 背骨と頭部が非階層的であるSimPLR'を, スケール認識型変圧器を用いた検出器で検出可能であることを示す。
実験により、より大きなViTバックボーンにスケールする場合、SimPLRはエンドツーエンドのセグメンテーションモデルよりも優れた性能を示すことを示した。
- 参考スコア(独自算出の注目度): 55.80411650662955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to detect objects in images at varying scales has played a
pivotal role in the design of modern object detectors. Despite considerable
progress in removing hand-crafted components and simplifying the architecture
with transformers, multi-scale feature maps and/or pyramid design remain a key
factor for their empirical success. In this paper, we show that this reliance
on either feature pyramids or an hierarchical backbone is unnecessary and a
transformer-based detector with scale-aware attention enables the plain
detector `SimPLR' whose backbone and detection head are both non-hierarchical
and operate on single-scale features. The plain architecture allows SimPLR to
effectively take advantages of self-supervised learning and scaling approaches
with ViTs, yielding competitive performance compared to hierarchical and
multi-scale counterparts. We demonstrate through our experiments that when
scaling to larger ViT backbones, SimPLR indicates better performance than
end-to-end segmentation models (Mask2Former) and plain-backbone detectors
(ViTDet), while consistently being faster. The code will be released.
- Abstract(参考訳): 様々なスケールで物体を検出する能力は、現代の物体検出器の設計において重要な役割を担っている。
手作りの部品を取り除き、トランスフォーマーでアーキテクチャを単純化するという大きな進歩にもかかわらず、マルチスケールの特徴マップやピラミッドデザインは、その経験的成功の重要な要素である。
本稿では, この特徴ピラミッドや階層的バックボーンへの依存は不要であり, 大規模注意を意識した変圧器ベースの検出器により, 背骨と検出ヘッドが非階層的かつ単一スケールの特徴を持つ平板検出器「SimPLR」が実現可能であることを示す。
平易なアーキテクチャにより、SimPLRは自己教師付き学習とViTによるスケーリングアプローチの利点を効果的に活用することができ、階層的およびマルチスケールのアプローチと比較して競争性能が向上する。
我々は,大規模なViTバックボーンにスケールする場合,SimPLRは終端分割モデル (Mask2Former) や平板バックボーン検出器 (ViTDet) よりも性能が向上することを示した。
コードはリリースされます。
関連論文リスト
- Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。