論文の概要: CrowdQuery: Density-Guided Query Module for Enhanced 2D and 3D Detection in Crowded Scenes
- arxiv url: http://arxiv.org/abs/2509.08738v1
- Date: Wed, 10 Sep 2025 16:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.50499
- Title: CrowdQuery: Density-Guided Query Module for Enhanced 2D and 3D Detection in Crowded Scenes
- Title(参考訳): CrowdQuery: クラウドシーンにおける2Dおよび3D検出の強化のための密度誘導型クエリモジュール
- Authors: Marius Dähling, Sebastian Krebs, J. Marius Zöllner,
- Abstract要約: 私たちは、オブジェクト密度マップを予測し、埋め込みするCQモジュールの中核コンポーネントであるCrowdQuery(CQ)を紹介します。
CQは、追加のデータを必要としない2Dと3Dの両方に普遍的に適用できる。
混み合った環境で2次元および3次元検出を効果的に橋渡しする手法を最初に設計する。
- 参考スコア(独自算出の注目度): 10.619058888618051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel method for end-to-end crowd detection that leverages object density information to enhance existing transformer-based detectors. We present CrowdQuery (CQ), whose core component is our CQ module that predicts and subsequently embeds an object density map. The embedded density information is then systematically integrated into the decoder. Existing density map definitions typically depend on head positions or object-based spatial statistics. Our method extends these definitions to include individual bounding box dimensions. By incorporating density information into object queries, our method utilizes density-guided queries to improve detection in crowded scenes. CQ is universally applicable to both 2D and 3D detection without requiring additional data. Consequently, we are the first to design a method that effectively bridges 2D and 3D detection in crowded environments. We demonstrate the integration of CQ into both a general 2D and 3D transformer-based object detector, introducing the architectures CQ2D and CQ3D. CQ is not limited to the specific transformer models we selected. Experiments on the STCrowd dataset for both 2D and 3D domains show significant performance improvements compared to the base models, outperforming most state-of-the-art methods. When integrated into a state-of-the-art crowd detector, CQ can further improve performance on the challenging CrowdHuman dataset, demonstrating its generalizability. The code is released at https://github.com/mdaehl/CrowdQuery.
- Abstract(参考訳): 本稿では, 物体密度情報を活用し, 既存の変圧器を用いた検出装置を改良する, エンドツーエンドの群集検出手法を提案する。
私たちはCrowdQuery(CQ)を紹介します。コアコンポーネントはCQモジュールで、オブジェクト密度マップを予測し、次に埋め込みます。
埋め込み密度情報はデコーダに体系的に統合される。
既存の密度マップの定義は通常、頭の位置やオブジェクトベースの空間統計に依存する。
我々の手法は、これらの定義を拡張して、個々の境界ボックス次元を含む。
本手法は,オブジェクトクエリに密度情報を統合することで,混雑したシーンにおける検出を改善するために,密度誘導クエリを利用する。
CQは、追加のデータを必要としない2Dと3Dの両方に普遍的に適用できる。
その結果,混み合った環境での2次元および3次元検出を効果的に橋渡しする手法を最初に設計した。
一般の2Dおよび3Dトランスを用いたオブジェクト検出器へのCQの統合を実演し、CQ2DとCQ3Dのアーキテクチャを導入する。
CQは、私たちが選択した特定のトランスフォーマーモデルに限ったものではない。
2Dドメインと3Dドメインの両方を対象としたSTCrowdデータセットの実験では、ベースモデルと比較して大幅にパフォーマンスが向上し、ほとんどの最先端メソッドよりも優れています。
最先端のクラウド検出器に統合されると、CQはCrowdHumanデータセットのパフォーマンスをさらに向上し、その一般化性を示している。
コードはhttps://github.com/mdaehl/CrowdQuery.comで公開されている。
関連論文リスト
- Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes [5.492174268132387]
3Dオブジェクト検出器は通常、完全に教師された方法で訓練され、3Dラベル付きデータに大きく依存する。
この研究は、モノクラー法によるデータ要求を減らすために、弱教師付き3D検出に焦点を当てている。
本稿では,3次元の物体を推定時に予測できる一般モデルWeak Cube R-CNNを提案する。
論文 参考訳(メタデータ) (2025-04-17T19:13:42Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition [45.16530801796705]
CrossLoc3Dは、クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法である。
CS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。
論文 参考訳(メタデータ) (2023-03-31T02:50:52Z) - 3D Cascade RCNN: High Quality Object Detection in Point Clouds [122.42455210196262]
本稿では3次元カスケードRCNNを提案する。これはカスケードパラダイムにおいて、酸化点雲に基づいて複数の検出器を割り当てる。
提案する3次元カスケードRCNNは,最先端の3次元物体検出技術と比較した場合の優位性を検証した。
論文 参考訳(メタデータ) (2022-11-15T15:58:36Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。