論文の概要: Anchor DETR: Query Design for Transformer-Based Detector
- arxiv url: http://arxiv.org/abs/2109.07107v1
- Date: Wed, 15 Sep 2021 06:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:01:15.454960
- Title: Anchor DETR: Query Design for Transformer-Based Detector
- Title(参考訳): anchor detr:transformerベースの検出器のクエリ設計
- Authors: Yingming Wang, Xiangyu Zhang, Tong Yang, Jian Sun
- Abstract要約: 本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
- 参考スコア(独自算出の注目度): 24.925317590675203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel query design for the transformer-based
detectors. In previous transformer-based detectors, the object queries are a
set of learned embeddings. However, each learned embedding does not have an
explicit physical meaning and we can not explain where it will focus on. It is
difficult to optimize as the prediction slot of each object query does not have
a specific mode. In other words, each object query will not focus on a specific
region. To solved these problems, in our query design, object queries are based
on anchor points, which are widely used in CNN-based detectors. So each object
query focus on the objects near the anchor point. Moreover, our query design
can predict multiple objects at one position to solve the difficulty: "one
region, multiple objects". In addition, we design an attention variant, which
can reduce the memory cost while achieving similar or better performance than
the standard attention in DETR. Thanks to the query design and the attention
variant, the proposed detector that we called Anchor DETR, can achieve better
performance and run faster than the DETR with 10$\times$ fewer training epochs.
For example, it achieves 44.2 AP with 16 FPS on the MSCOCO dataset when using
the ResNet50-DC5 feature for training 50 epochs. Extensive experiments on the
MSCOCO benchmark prove the effectiveness of the proposed methods. Code is
available at https://github.com/megvii-model/AnchorDETR.
- Abstract(参考訳): 本稿では,トランス型検出器のための新しい問合せ設計を提案する。
以前のtransformerベースの検出器では、オブジェクトクエリは学習した埋め込みのセットである。
しかし,各組込みは明示的な物理的意味を持たず,どこに焦点をあてるかは説明できない。
各オブジェクトクエリの予測スロットが特定のモードを持っていないため、最適化することは困難である。
言い換えれば、それぞれのオブジェクトクエリは、特定の領域に焦点を合わせません。
これらの問題を解決するため、我々のクエリ設計では、オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
したがって、各オブジェクトクエリはアンカーポイント近くのオブジェクトにフォーカスします。
さらに、クエリ設計では、複数のオブジェクトを一つの位置で予測することで、"ひとつの領域、複数のオブジェクト"という難しさを解決することができる。
さらに,detrの標準注目値と同等あるいは優れた性能を実現しつつ,メモリコストを低減できる注意型を設計した。
クエリ設計とアテンションバリアントにより、Anchor DETRと呼ばれる提案された検出器は、10$\times$より少ないトレーニングエポックでより優れたパフォーマンスを実現し、DETRよりも高速に動作することができる。
例えば、50エポックのトレーニングにResNet50-DC5機能を使用する場合、MSCOCOデータセット上で16 FPSで44.2 APを達成した。
MSCOCOベンチマークの大規模な実験により,提案手法の有効性が証明された。
コードはhttps://github.com/megvii-model/AnchorDETRで入手できる。
関連論文リスト
- Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images [26.37802649901314]
効率的なデコーダを備えたエンドツーエンド指向型検出器を提案する。
回転RoIアテンションと選択離散クエリ(SDQ)を提案する。
本手法は, ResNet50バックボーンを用いたDIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-29T13:43:17Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - StageInteractor: Query-based Object Detector with Cross-stage
Interaction [21.84964476813102]
そこで本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。
我々のモデルはベースラインを2.2 AP改善し、ResNet-50をバックボーンとして44.8 APを達成した。
トレーニング時間と300クエリにより、StageInteractorは51.1 APと52.2 APをそれぞれResNeXt-101-DCNとSwin-Sで達成している。
論文 参考訳(メタデータ) (2023-04-11T04:50:13Z) - Dense Distinct Query for End-to-End Object Detection [39.32011383066249]
オブジェクト検出における1対1の割り当ては、非最大抑制の必要性を回避した。
本稿では,Dense Distinct Queries (DDQ) の解法について述べる。
DDQは従来のエンドツーエンド検出器と最近のエンド・ツー・エンド検出器の利点をブレンドし、様々な検出器の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-22T17:42:22Z) - ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文 参考訳(メタデータ) (2022-09-13T00:11:16Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - AdaMixer: A Fast-Converging Query-Based Object Detector [32.159871347459166]
本稿では,AdaMixerという高速収束型クエリベースオブジェクト検出器を提案する。
AdaMixerは、明示的なピラミッドネットワークを必要としない、アーキテクチャの単純さを持っている。
私たちの研究は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
論文 参考訳(メタデータ) (2022-03-30T17:45:02Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。