論文の概要: StageInteractor: Query-based Object Detector with Cross-stage
Interaction
- arxiv url: http://arxiv.org/abs/2304.04978v2
- Date: Mon, 15 Jan 2024 13:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:11:38.471221
- Title: StageInteractor: Query-based Object Detector with Cross-stage
Interaction
- Title(参考訳): stageinteractor: クロスステージインタラクションを備えたクエリベースのオブジェクト検出
- Authors: Yao Teng, Haisong Liu, Sheng Guo, Limin Wang
- Abstract要約: そこで本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。
我々のモデルはベースラインを2.2 AP改善し、ResNet-50をバックボーンとして44.8 APを達成した。
トレーニング時間と300クエリにより、StageInteractorは51.1 APと52.2 APをそれぞれResNeXt-101-DCNとSwin-Sで達成している。
- 参考スコア(独自算出の注目度): 21.84964476813102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous object detectors make predictions based on dense grid points or
numerous preset anchors. Most of these detectors are trained with one-to-many
label assignment strategies. On the contrary, recent query-based object
detectors depend on a sparse set of learnable queries and a series of decoder
layers. The one-to-one label assignment is independently applied on each layer
for the deep supervision during training. Despite the great success of
query-based object detection, however, this one-to-one label assignment
strategy demands the detectors to have strong fine-grained discrimination and
modeling capacity. To solve the above problems, in this paper, we propose a new
query-based object detector with cross-stage interaction, coined as
StageInteractor. During the forward propagation, we come up with an efficient
way to improve this modeling ability by reusing dynamic operators with
lightweight adapters. As for the label assignment, a cross-stage label assigner
is applied subsequent to the one-to-one label assignment. With this assigner,
the training target class labels are gathered across stages and then
reallocated to proper predictions at each decoder layer. On MS COCO benchmark,
our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50
as backbone, 100 queries and 12 training epochs. With longer training time and
300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN
and Swin-S, respectively.
- Abstract(参考訳): 従来の物体検出器は、密集した格子点や多数のプリセットアンカーに基づいて予測を行う。
これらの検出器のほとんどは1対多のラベル割り当て戦略で訓練されている。
逆に、最近のクエリベースのオブジェクト検出器は、学習可能なクエリのスパースセットと一連のデコーダ層に依存している。
1対1のラベル割り当ては、トレーニング中の深い監視のために各レイヤに独立に適用される。
しかし、クエリベースのオブジェクト検出に大きな成功を収めたにもかかわらず、この1対1のラベル割り当て戦略は、検出器に強力なきめ細かい識別とモデリング能力を持つことを要求する。
そこで,本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。
フォワードプロパゲーションでは,動的演算子を軽量なアダプタで再利用することで,このモデリング能力を向上させる効率的な方法が考案される。
ラベル代入については、1対1のラベル代入の後、クロスステージラベル代入が適用される。
この代入器では、トレーニング対象クラスラベルがステージにまたがって収集され、各デコーダ層で適切な予測に再配置される。
MS COCOベンチマークでは,ベースラインを2.2 AP改善し,バックボーンとしてResNet-50,100クエリ,12トレーニングエポックとして44.8 APを達成した。
トレーニング時間と300クエリにより、StageInteractorはそれぞれResNeXt-101-DCNとSwin-Sで51.1 APと52.2 APを達成した。
関連論文リスト
- Joint Neural Networks for One-shot Object Recognition and Detection [5.389851588398047]
本稿では,一発物体の認識と検出に難渋する課題に対処する,新しい結合ニューラルネットワーク手法を提案する。
Siameseのニューラルネットワークと最先端のマルチボックス検出アプローチにインスパイアされたジョイントニューラルネットワークは、トレーニングプロセス中に見つからないカテゴリのオブジェクト認識と検出を行うことができる。
提案手法は,MiniImageNetデータセット上での1ショットオブジェクト認識における61.41%の精度と,データセット上でトレーニングしてテストした場合の1ショットオブジェクト検出における47.1%のmAPを実現する。
論文 参考訳(メタデータ) (2024-08-01T16:48:03Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - AdaMixer: A Fast-Converging Query-Based Object Detector [32.159871347459166]
本稿では,AdaMixerという高速収束型クエリベースオブジェクト検出器を提案する。
AdaMixerは、明示的なピラミッドネットワークを必要としない、アーキテクチャの単純さを持っている。
私たちの研究は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
論文 参考訳(メタデータ) (2022-03-30T17:45:02Z) - Corner Proposal Network for Anchor-free, Two-stage Object Detection [174.59360147041673]
オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。
本稿では,多数のオブジェクト提案を抽出する新しいアンカーフリー2段階フレームワークを提案する。
この2つの段階が,リコールと精度の向上に有効な解であることを示す。
論文 参考訳(メタデータ) (2020-07-27T19:04:57Z) - AutoAssign: Differentiable Label Assignment for Dense Object Detection [94.24431503373884]
Auto COCOは、物体検出のためのアンカーフリー検出器である。
外観認識は、完全に微分可能な重み付け機構によって実現される。
我々の最良のモデルでは52.1%のAPが達成され、既存の1段検出器よりも優れている。
論文 参考訳(メタデータ) (2020-07-07T14:32:21Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。