論文の概要: DETR Doesn't Need Multi-Scale or Locality Design
- arxiv url: http://arxiv.org/abs/2308.01904v1
- Date: Thu, 3 Aug 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:11:17.827315
- Title: DETR Doesn't Need Multi-Scale or Locality Design
- Title(参考訳): DETRはマルチスケールやローカリティ設計を必要としない
- Authors: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
- Abstract要約: 本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
- 参考スコア(独自算出の注目度): 69.56292005230185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an improved DETR detector that maintains a "plain"
nature: using a single-scale feature map and global cross-attention
calculations without specific locality constraints, in contrast to previous
leading DETR-based detectors that reintroduce architectural inductive biases of
multi-scale and locality into the decoder. We show that two simple technologies
are surprisingly effective within a plain design to compensate for the lack of
multi-scale feature maps and locality constraints. The first is a box-to-pixel
relative position bias (BoxRPB) term added to the cross-attention formulation,
which well guides each query to attend to the corresponding object region while
also providing encoding flexibility. The second is masked image modeling
(MIM)-based backbone pre-training which helps learn representation with
fine-grained localization ability and proves crucial for remedying dependencies
on the multi-scale feature maps. By incorporating these technologies and recent
advancements in training and problem formation, the improved "plain" DETR
showed exceptional improvements over the original DETR detector. By leveraging
the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a
Swin-L backbone, which is highly competitive with state-of-the-art detectors
which all heavily rely on multi-scale feature maps and region-based feature
extraction. Code is available at https://github.com/impiga/Plain-DETR .
- Abstract(参考訳): 本稿では, 単一スケールの特徴マップとグローバルなクロスアテンション計算を特定の局所性制約なしで使用し, マルチスケールおよび局所性のアーキテクチャ的帰納バイアスを再導入する従来のDreTRベースの検出器とは対照的に, "プレーン" 特性を維持した改良DreTR検出器を提案する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
ひとつは、クロスアテンション形式に追加されたbox-to-pixel相対位置バイアス(boxrpb)用語で、各クエリを対応するオブジェクト領域に合致させると同時に、エンコーディングの柔軟性も備えている。
2つ目は、マスク付き画像モデリング(MIM)ベースのバックボーン事前トレーニングで、微粒なローカライゼーション能力で表現を学習し、マルチスケールの機能マップへの依存性の修復に不可欠であることを証明している。
これらの技術と最近の訓練と問題形成の進歩を取り入れることで、改良された"プレーン" DETRはオリジナルのDETR検出器よりも優れた性能を示した。
Object365データセットを事前トレーニングに利用することにより、Swin-Lのバックボーンを使用して63.9mAPの精度を実現した。
コードはhttps://github.com/impiga/Plain-DETR で公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Focus on Local: Detecting Lane Marker from Bottom Up via Key Point [10.617793053931964]
本研究では,局所パターンのモデル化とグローバルな構造予測に焦点をあてた新しいレーンマーカー検出ソリューションFOLOLaneを提案する。
具体的には、CNNは2つの異なる頭部を持つ低複雑局所パターンをモデル化し、第1は鍵点の存在を予測し、第2は局所範囲における鍵点の位置を洗練し、同じレーン線の鍵点を相関させる。
論文 参考訳(メタデータ) (2021-05-28T08:59:14Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - ASLFeat: Learning Local Features of Accurate Shape and Localization [42.70030492742363]
ASLFeatを3つの軽量かつ効果的に修正し、上記の問題を緩和する。
まず、変形可能な畳み込みネットワークを用いて局所変換を密に推定、適用する。
第2に,空間分解能と低レベル細部を復元する特徴階層を利用して,正確なキーポイント位置推定を行う。
論文 参考訳(メタデータ) (2020-03-23T04:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。