論文の概要: Progressive End-to-End Object Detection in Crowded Scenes
- arxiv url: http://arxiv.org/abs/2203.07669v1
- Date: Tue, 15 Mar 2022 06:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 05:56:10.868486
- Title: Progressive End-to-End Object Detection in Crowded Scenes
- Title(参考訳): 群集シーンにおけるプログレッシブ・エンド物体検出
- Authors: Anlin Zheng, Yuang Zhang, Xiangyu Zhang, Xiaojuan Qi, Jian Sun
- Abstract要約: 以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 96.92416613336096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new query-based detection framework for crowd
detection. Previous query-based detectors suffer from two drawbacks: first,
multiple predictions will be inferred for a single object, typically in crowded
scenes; second, the performance saturates as the depth of the decoding stage
increases. Benefiting from the nature of the one-to-one label assignment rule,
we propose a progressive predicting method to address the above issues.
Specifically, we first select accepted queries prone to generate true positive
predictions, then refine the rest noisy queries according to the previously
accepted predictions. Experiments show that our method can significantly boost
the performance of query-based detectors in crowded scenes. Equipped with our
approach, Sparse RCNN achieves 92.0\% $\text{AP}$, 41.4\% $\text{MR}^{-2}$ and
83.2\% $\text{JI}$ on the challenging CrowdHuman \cite{shao2018crowdhuman}
dataset, outperforming the box-based method MIP \cite{chu2020detection} that
specifies in handling crowded scenarios. Moreover, the proposed method, robust
to crowdedness, can still obtain consistent improvements on moderately and
slightly crowded datasets like CityPersons \cite{zhang2017citypersons} and COCO
\cite{lin2014microsoft}. Code will be made publicly available at
https://github.com/megvii-model/Iter-E2EDET.
- Abstract(参考訳): 本稿では,群衆検出のための新しいクエリベース検出フレームワークを提案する。
前のクエリベースの検出器は2つの欠点を抱えている: まず、複数の予測が1つのオブジェクトに対して推論され、通常、混雑したシーンで、デコードステージの深さが大きくなると、パフォーマンスが飽和する。
1対1のラベル割り当て規則の性質から,上記の問題に対処するための漸進的予測手法を提案する。
具体的には、まず、受理されたクエリを選択して真の正の予測を生成し、その後、受理された予測に従って残りのノイズの多いクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
我々のアプローチと合わせて、Sparse RCNN は 92.0\% $\text{AP}$, 41.4\% $\text{MR}^{-2}$, 83.2\% $\text{JI}$ on the challenge CrowdHuman \cite{shao2018crowd human} dataset, outform the box-based method MIP \cite{chu2020detection}。
さらに,CityPersons \cite{zhang2017citypersons} やCOCO \cite{lin2014microsoft} のような中程度でやや混み合ったデータセットに対して,この手法は依然として一貫した改善が得られる。
コードはhttps://github.com/megvii-model/Iter-E2EDETで公開される。
関連論文リスト
- Less is More: One-shot Subgraph Reasoning on Large-scale Knowledge Graphs [49.547988001231424]
効率的かつ適応的な予測を実現するために,ワンショットサブグラフリンク予測を提案する。
設計原理は、KG全体に直接作用する代わりに、予測手順を2つのステップに分離する。
5つの大規模ベンチマークにおいて,効率の向上と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-03-15T12:00:12Z) - Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian
Detection [49.27380156754935]
DETRのクエリの数は手動で調整しなければなりませんが、そうでなければ、パフォーマンスは様々な程度に低下します。
本稿では,ランクに基づく適応クエリ生成(RAQG)を提案し,問題を緩和する。
提案手法は単純かつ効果的であり,任意のDETRにプラグインすることで,理論上クエリ適応性を実現する。
論文 参考訳(メタデータ) (2023-10-24T11:00:56Z) - Enhancing Hyperedge Prediction with Context-Aware Self-Supervised
Learning [64.46188414653204]
我々は新しいハイパーエッジ予測フレームワーク(CASH)を提案する。
CASHは、コンテキスト認識ノードアグリゲーションを用いて、(C1)ハイパーエッジの各ノード間の複雑な関係をキャプチャし、(2)ハイパーエッジ予測のコンテキストにおける自己教師付きコントラスト学習を行い、(C2)ハイパーグラフ表現を強化する。
6つの実世界のハイパーグラフの実験により、CASHはハイパーエッジ予測の精度で競合する全ての手法を一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-11T20:06:00Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。
現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。
連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文 参考訳(メタデータ) (2021-03-23T05:02:52Z) - Adaptive Bi-directional Attention: Exploring Multi-Granularity
Representations for Machine Reading Comprehension [29.717816161964105]
異なるレベルのソース表現を予測器に適応的に適用するAdaptive Bidirectional Attentionと呼ばれる新しいアプローチを提案する。
結果は、2.5$%$ EMと2.3$%$ F1スコアによる以前の最新モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-20T09:31:35Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。