Fugu-MT 論文翻訳(概要): SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation

論文の概要: SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation

arxiv url: http://arxiv.org/abs/2310.05920v2
Date: Fri, 1 Dec 2023 13:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 17:44:06.964292
Title: SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation
Title（参考訳）: SimPLR: オブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器
Authors: Duy-Kien Nguyen and Martin R. Oswald and Cees G. M. Snoek
Abstract要約: 本研究では, 背骨と頭部が非階層的であるSimPLR'を, スケール認識型変圧器を用いた検出器で検出可能であることを示す。実験により、より大きなViTバックボーンにスケールする場合、SimPLRはエンドツーエンドのセグメンテーションモデルよりも優れた性能を示すことを示した。
参考スコア（独自算出の注目度）: 55.80411650662955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing hand-crafted components and simplifying the architecture with transformers, multi-scale feature maps and/or pyramid design remain a key factor for their empirical success. In this paper, we show that this reliance on either feature pyramids or an hierarchical backbone is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR' whose backbone and detection head are both non-hierarchical and operate on single-scale features. The plain architecture allows SimPLR to effectively take advantages of self-supervised learning and scaling approaches with ViTs, yielding competitive performance compared to hierarchical and multi-scale counterparts. We demonstrate through our experiments that when scaling to larger ViT backbones, SimPLR indicates better performance than end-to-end segmentation models (Mask2Former) and plain-backbone detectors (ViTDet), while consistently being faster. The code will be released.
Abstract（参考訳）: 様々なスケールで物体を検出する能力は、現代の物体検出器の設計において重要な役割を担っている。手作りの部品を取り除き、トランスフォーマーでアーキテクチャを単純化するという大きな進歩にもかかわらず、マルチスケールの特徴マップやピラミッドデザインは、その経験的成功の重要な要素である。本稿では, この特徴ピラミッドや階層的バックボーンへの依存は不要であり, 大規模注意を意識した変圧器ベースの検出器により, 背骨と検出ヘッドが非階層的かつ単一スケールの特徴を持つ平板検出器「SimPLR」が実現可能であることを示す。平易なアーキテクチャにより、SimPLRは自己教師付き学習とViTによるスケーリングアプローチの利点を効果的に活用することができ、階層的およびマルチスケールのアプローチと比較して競争性能が向上する。我々は,大規模なViTバックボーンにスケールする場合,SimPLRは終端分割モデル (Mask2Former) や平板バックボーン検出器 (ViTDet) よりも性能が向上することを示した。コードはリリースされます。

関連論文リスト

CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文参考訳（メタデータ） (2024-04-23T18:46:07Z)
Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文参考訳（メタデータ） (2023-08-30T19:02:17Z)
Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文参考訳（メタデータ） (2023-03-26T20:50:58Z)
Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文参考訳（メタデータ） (2023-01-06T18:52:12Z)
RTMDet: An Empirical Study of Designing Real-Time Object Detectors [13.09100888887757]
我々は、YOLO級数を超え、多くのオブジェクト認識タスクに容易に対応できる効率的なリアルタイム物体検出装置を開発した。より良いトレーニング技術とともに、得られたオブジェクト検出器はRTMDetと呼ばれ、COCOでは52.8%AP、NVIDIA 3090 GPUでは300以上のFPSを達成している。実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られればと願っている。
論文参考訳（メタデータ） (2022-12-14T18:50:20Z)
Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文参考訳（メタデータ） (2022-08-24T08:09:25Z)
An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文参考訳（メタデータ） (2022-04-17T09:27:45Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。 UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-17T20:11:56Z)
CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文参考訳（メタデータ） (2021-10-24T06:45:33Z)
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文参考訳（メタデータ） (2021-10-08T06:32:05Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。 vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。 ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文参考訳（メタデータ） (2020-12-17T22:33:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。