論文の概要: SimPLR: A Simple and Plain Transformer for Object Detection and
Segmentation
- arxiv url: http://arxiv.org/abs/2310.05920v2
- Date: Fri, 1 Dec 2023 13:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:44:06.964292
- Title: SimPLR: A Simple and Plain Transformer for Object Detection and
Segmentation
- Title(参考訳): SimPLR: オブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器
- Authors: Duy-Kien Nguyen and Martin R. Oswald and Cees G. M. Snoek
- Abstract要約: 本研究では, 背骨と頭部が非階層的であるSimPLR'を, スケール認識型変圧器を用いた検出器で検出可能であることを示す。
実験により、より大きなViTバックボーンにスケールする場合、SimPLRはエンドツーエンドのセグメンテーションモデルよりも優れた性能を示すことを示した。
- 参考スコア(独自算出の注目度): 55.80411650662955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to detect objects in images at varying scales has played a
pivotal role in the design of modern object detectors. Despite considerable
progress in removing hand-crafted components and simplifying the architecture
with transformers, multi-scale feature maps and/or pyramid design remain a key
factor for their empirical success. In this paper, we show that this reliance
on either feature pyramids or an hierarchical backbone is unnecessary and a
transformer-based detector with scale-aware attention enables the plain
detector `SimPLR' whose backbone and detection head are both non-hierarchical
and operate on single-scale features. The plain architecture allows SimPLR to
effectively take advantages of self-supervised learning and scaling approaches
with ViTs, yielding competitive performance compared to hierarchical and
multi-scale counterparts. We demonstrate through our experiments that when
scaling to larger ViT backbones, SimPLR indicates better performance than
end-to-end segmentation models (Mask2Former) and plain-backbone detectors
(ViTDet), while consistently being faster. The code will be released.
- Abstract(参考訳): 様々なスケールで物体を検出する能力は、現代の物体検出器の設計において重要な役割を担っている。
手作りの部品を取り除き、トランスフォーマーでアーキテクチャを単純化するという大きな進歩にもかかわらず、マルチスケールの特徴マップやピラミッドデザインは、その経験的成功の重要な要素である。
本稿では, この特徴ピラミッドや階層的バックボーンへの依存は不要であり, 大規模注意を意識した変圧器ベースの検出器により, 背骨と検出ヘッドが非階層的かつ単一スケールの特徴を持つ平板検出器「SimPLR」が実現可能であることを示す。
平易なアーキテクチャにより、SimPLRは自己教師付き学習とViTによるスケーリングアプローチの利点を効果的に活用することができ、階層的およびマルチスケールのアプローチと比較して競争性能が向上する。
我々は,大規模なViTバックボーンにスケールする場合,SimPLRは終端分割モデル (Mask2Former) や平板バックボーン検出器 (ViTDet) よりも性能が向上することを示した。
コードはリリースされます。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。