論文の概要: Box-DETR: Understanding and Boxing Conditional Spatial Queries
- arxiv url: http://arxiv.org/abs/2307.08353v1
- Date: Mon, 17 Jul 2023 09:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:04:59.256796
- Title: Box-DETR: Understanding and Boxing Conditional Spatial Queries
- Title(参考訳): Box-DETR: 条件空間クエリの理解とボクシング
- Authors: Wenze Liu, Hao Lu, Yuliang Liu, Zhiguo Cao
- Abstract要約: 近年,コンバージェンスを高速化するために,条件付き空間クエリーをDetection TRansformer (DETR) に導入している。
DAB-DETRでは、これらのクエリは、デコーダの各段階でいわゆる条件線形射影によって変調される。
ボックスを頭固有のエージェントポイントにコンデンスするためのBox Agentを提案する。
- 参考スコア(独自算出の注目度): 32.28512034705838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional spatial queries are recently introduced into DEtection
TRansformer (DETR) to accelerate convergence. In DAB-DETR, such queries are
modulated by the so-called conditional linear projection at each decoder stage,
aiming to search for positions of interest such as the four extremities of the
box. Each decoder stage progressively updates the box by predicting the anchor
box offsets, while in cross-attention only the box center is informed as the
reference point. The use of only box center, however, leaves the width and
height of the previous box unknown to the current stage, which hinders accurate
prediction of offsets. We argue that the explicit use of the entire box
information in cross-attention matters. In this work, we propose Box Agent to
condense the box into head-specific agent points. By replacing the box center
with the agent point as the reference point in each head, the conditional
cross-attention can search for positions from a more reasonable starting point
by considering the full scope of the previous box, rather than always from the
previous box center. This significantly reduces the burden of the conditional
linear projection. Experimental results show that the box agent leads to not
only faster convergence but also improved detection performance, e.g., our
single-scale model achieves $44.2$ AP with ResNet-50 based on DAB-DETR. Our Box
Agent requires minor modifications to the code and has negligible computational
workload. Code is available at https://github.com/tiny-smart/box-detr.
- Abstract(参考訳): 近年,コンバージェンスを高速化するために,条件付き空間クエリーをDetection TRansformer (DETR) に導入している。
DAB-DETRでは、これらのクエリはデコーダの各段階でいわゆる条件線形射影によって変調され、ボックスの4つの極限のような興味ある位置を探索する。
各デコーダステージはアンカーボックスオフセットを予測してボックスを段階的に更新し、クロスアテンションではボックスセンターのみを基準ポイントとして通知する。
しかし、ボックスセンターのみを使用することで、以前のボックスの幅と高さが現在のステージに不明となり、オフセットの正確な予測が妨げられる。
ボックス全体の情報を横断的関心事に明示的に利用することは重要であると論じる。
本研究では,ボックスを頭固有のエージェントポイントにコンデンスするためのBox Agentを提案する。
各ヘッドの基準点として、ボックスセンターをエージェントポイントに置き換えることで、条件付きクロスアテンションは、常に前のボックスセンターからではなく、前のボックスのスコープ全体を考慮して、より合理的なスタートポイントから位置を探索することができる。
これは条件付き線形射影の負担を大幅に軽減する。
実験結果から,ボックスエージェントはコンバージェンスを高速化するだけでなく,検出性能も向上することが明らかとなった。例えば,我々の単一スケールモデルでは,DAB-DETRに基づくResNet-50で44.2ドルAPを達成した。
我々のボックスエージェントは、コードにマイナーな修正を必要とし、計算ワークロードは無視できる。
コードはhttps://github.com/tiny-smart/box-detrで入手できる。
関連論文リスト
- Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision [81.60564776995682]
我々は、ポイント教師付きオブジェクト検出のためのエンドツーエンドソリューションであるPoint2RBoxを提案する。
提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。
特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T15:57:41Z) - Anchor-Intermediate Detector: Decoupling and Coupling Bounding Boxes for
Accurate Object Detection [7.216931644655777]
本稿では,この推論におけるtextbfBox Deouple-Couple(BDC)戦略を提案する。
各コーナーのスコアに従って、最も正確なコーナーペアを選択するためにコーナーポイントをペアリングする。
コーナー認識ヘッドは、各バウンディングボックスのコーナーをスコアし、コーナーポイント間のカップリングを容易にする。
論文 参考訳(メタデータ) (2023-10-09T12:35:05Z) - H2RBox: Horizonal Box Annotation is All You Need for Oriented Object
Detection [63.66553556240689]
オブジェクト指向物体検出は、空中画像から自律運転に至るまで、多くの用途に現れる。
多くの既存の検出ベンチマークには水平バウンディングボックスがアノテートされているが、これはきめ細かな回転ボックスよりもコストが低い。
本稿では,H2RBoxと呼ばれる単純なオブジェクト指向検出手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T05:12:45Z) - Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文 参考訳(メタデータ) (2022-07-18T20:08:55Z) - DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [37.61768722607528]
DeTR(Detection TRansformer)のための動的アンカーボックスを用いた新しいクエリ定式化を提案する。
この新たな定式化は、Transformerデコーダのクエリとしてボックス座標を直接使用し、層ごとに動的に更新する。
MS-COCOベンチマークでは、同じ設定でDETRライクな検出モデルの中で最高のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-01-28T18:51:09Z) - BoxeR: Box-Attention for 2D and 3D Transformers [36.03241565421038]
入力特徴写像上の参照ウィンドウからの変換を予測し,ボックスの集合に付随するボックストランスフォーマーの略であるBoxeRを提案する。
BoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付け、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、鳥眼面から識別情報を生成し、3Dのエンドツーエンド物体検出を行う。
論文 参考訳(メタデータ) (2021-11-25T13:54:25Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z) - Dive Deeper Into Box for Object Detection [49.923586776690115]
そこで我々は,より正確な位置決めを行うために,ボックスに深く潜り込むことができるボックス再構成手法(DDBNet)を提案する。
実験結果から,本手法はオブジェクト検出の最先端性能に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-15T07:49:05Z) - CenterNet3D: An Anchor Free Object Detector for Point Cloud [14.506796247331584]
本研究では,アンカーフリーのCenterNet3Dネットワークを提案し,アンカーなしで3次元物体検出を行う。
中心点に基づいて,アンカー不要な3次元物体検出を行うCenterNet3Dネットワークを提案する。
提案手法は,最先端のアンカーベースの一段法よりも優れ,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-07-13T13:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。