Fugu-MT 論文翻訳(概要): StageInteractor: Query-based Object Detector with Cross-stage Interaction

論文の概要: StageInteractor: Query-based Object Detector with Cross-stage Interaction

arxiv url: http://arxiv.org/abs/2304.04978v2
Date: Mon, 15 Jan 2024 13:03:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 03:11:38.471221
Title: StageInteractor: Query-based Object Detector with Cross-stage Interaction
Title（参考訳）: stageinteractor: クロスステージインタラクションを備えたクエリベースのオブジェクト検出
Authors: Yao Teng, Haisong Liu, Sheng Guo, Limin Wang
Abstract要約: そこで本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。我々のモデルはベースラインを2.2 AP改善し、ResNet-50をバックボーンとして44.8 APを達成した。トレーニング時間と300クエリにより、StageInteractorは51.1 APと52.2 APをそれぞれResNeXt-101-DCNとSwin-Sで達成している。
参考スコア（独自算出の注目度）: 21.84964476813102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous object detectors make predictions based on dense grid points or numerous preset anchors. Most of these detectors are trained with one-to-many label assignment strategies. On the contrary, recent query-based object detectors depend on a sparse set of learnable queries and a series of decoder layers. The one-to-one label assignment is independently applied on each layer for the deep supervision during training. Despite the great success of query-based object detection, however, this one-to-one label assignment strategy demands the detectors to have strong fine-grained discrimination and modeling capacity. To solve the above problems, in this paper, we propose a new query-based object detector with cross-stage interaction, coined as StageInteractor. During the forward propagation, we come up with an efficient way to improve this modeling ability by reusing dynamic operators with lightweight adapters. As for the label assignment, a cross-stage label assigner is applied subsequent to the one-to-one label assignment. With this assigner, the training target class labels are gathered across stages and then reallocated to proper predictions at each decoder layer. On MS COCO benchmark, our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50 as backbone, 100 queries and 12 training epochs. With longer training time and 300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN and Swin-S, respectively.
Abstract（参考訳）: 従来の物体検出器は、密集した格子点や多数のプリセットアンカーに基づいて予測を行う。これらの検出器のほとんどは1対多のラベル割り当て戦略で訓練されている。逆に、最近のクエリベースのオブジェクト検出器は、学習可能なクエリのスパースセットと一連のデコーダ層に依存している。 1対1のラベル割り当ては、トレーニング中の深い監視のために各レイヤに独立に適用される。しかし、クエリベースのオブジェクト検出に大きな成功を収めたにもかかわらず、この1対1のラベル割り当て戦略は、検出器に強力なきめ細かい識別とモデリング能力を持つことを要求する。そこで,本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。フォワードプロパゲーションでは,動的演算子を軽量なアダプタで再利用することで,このモデリング能力を向上させる効率的な方法が考案される。ラベル代入については、1対1のラベル代入の後、クロスステージラベル代入が適用される。この代入器では、トレーニング対象クラスラベルがステージにまたがって収集され、各デコーダ層で適切な予測に再配置される。 MS COCOベンチマークでは,ベースラインを2.2 AP改善し,バックボーンとしてResNet-50,100クエリ,12トレーニングエポックとして44.8 APを達成した。トレーニング時間と300クエリにより、StageInteractorはそれぞれResNeXt-101-DCNとSwin-Sで51.1 APと52.2 APを達成した。

関連論文リスト

DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection [39.56089737473775]
画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。また,注意障害学習による簡易デコーダフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-26T05:40:04Z)
Joint Neural Networks for One-shot Object Recognition and Detection [5.389851588398047]
本稿では,一発物体の認識と検出に難渋する課題に対処する,新しい結合ニューラルネットワーク手法を提案する。 Siameseのニューラルネットワークと最先端のマルチボックス検出アプローチにインスパイアされたジョイントニューラルネットワークは、トレーニングプロセス中に見つからないカテゴリのオブジェクト認識と検出を行うことができる。提案手法は,MiniImageNetデータセット上での1ショットオブジェクト認識における61.41%の精度と,データセット上でトレーニングしてテストした場合の1ショットオブジェクト検出における47.1%のmAPを実現する。
論文参考訳（メタデータ） (2024-08-01T16:48:03Z)
Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。 DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-04-02T08:21:16Z)
RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection [26.37802649901314]
オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。 4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
論文参考訳（メタデータ） (2023-11-29T13:43:17Z)
Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。 CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文参考訳（メタデータ） (2023-05-24T07:09:25Z)
End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。 ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文参考訳（メタデータ） (2023-05-01T06:07:11Z)
Enhanced Training of Query-Based Object Detection via Selective Query Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文参考訳（メタデータ） (2022-12-15T02:45:57Z)
Label-Efficient Object Detection via Region Proposal Network Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。 RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文参考訳（メタデータ） (2022-11-16T16:28:18Z)
AdaMixer: A Fast-Converging Query-Based Object Detector [32.159871347459166]
本稿では,AdaMixerという高速収束型クエリベースオブジェクト検出器を提案する。 AdaMixerは、明示的なピラミッドネットワークを必要としない、アーキテクチャの単純さを持っている。私たちの研究は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
論文参考訳（メタデータ） (2022-03-30T17:45:02Z)
Corner Proposal Network for Anchor-free, Two-stage Object Detection [174.59360147041673]
オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。本稿では,多数のオブジェクト提案を抽出する新しいアンカーフリー2段階フレームワークを提案する。この2つの段階が,リコールと精度の向上に有効な解であることを示す。
論文参考訳（メタデータ） (2020-07-27T19:04:57Z)
AutoAssign: Differentiable Label Assignment for Dense Object Detection [94.24431503373884]
Auto COCOは、物体検出のためのアンカーフリー検出器である。外観認識は、完全に微分可能な重み付け機構によって実現される。我々の最良のモデルでは52.1%のAPが達成され、既存の1段検出器よりも優れている。
論文参考訳（メタデータ） (2020-07-07T14:32:21Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)
EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文参考訳（メタデータ） (2020-02-18T08:04:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。