論文の概要: Unsupervised Multi-view Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2305.12457v1
- Date: Sun, 21 May 2023 13:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:25:58.844731
- Title: Unsupervised Multi-view Pedestrian Detection
- Title(参考訳): 教師なしマルチビュー歩行者検出
- Authors: Mengyin Liu, Chao Zhu, Shiqi Ren, Xu-Cheng Yin
- Abstract要約: マルチビュー歩行者検出法を学習するためのアノテーションを不要にするため,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、教師なし事前学習モデルを用いて、異なるカメラビューから入力画像の視覚的表現を抽出する。
VDRは、SIS、画像、カメラのポーズのマスクによって3Dボクセルの密度と色を学習するだけでなく、地上面に向かって垂直になるようボクセルを拘束することも提案されている。
- 参考スコア(独自算出の注目度): 8.871766077354971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prosperity of the video surveillance, multiple visual sensors have
been applied for an accurate localization of pedestrians in a specific area,
which facilitate various applications like intelligent safety or new retailing.
However, previous methods rely on the supervision from the human annotated
pedestrian positions in every video frame and camera view, which is a heavy
burden in addition to the necessary camera calibration and synchronization.
Therefore, we propose in this paper an Unsupervised Multi-view Pedestrian
Detection approach (UMPD) to eliminate the need of annotations to learn a
multi-view pedestrian detector. 1) Firstly, Semantic-aware Iterative
Segmentation (SIS) is proposed to extract discriminative visual representations
of the input images from different camera views via an unsupervised pretrained
model, then convert them into 2D segments of pedestrians, based on our proposed
iterative Principal Component Analysis and the zero-shot semantic classes from
the vision-language pretrained models. 2) Secondly, we propose Vertical-aware
Differential Rendering (VDR) to not only learn the densities and colors of 3D
voxels by the masks of SIS, images and camera poses, but also constraint the
voxels to be vertical towards the ground plane, following the physical
characteristics of pedestrians. 3) Thirdly, the densities of 3D voxels learned
by VDR are projected onto Bird-Eyes-View as the final detection results.
Extensive experiments on popular multi-view pedestrian detection benchmarks,
i.e., Wildtrack and MultiviewX, show that our proposed UMPD approach, as the
first unsupervised method to our best knowledge, performs competitively with
the previous state-of-the-art supervised techniques. Code will be available.
- Abstract(参考訳): ビデオ監視の繁栄により、複数の視覚センサーが特定のエリアにおける歩行者の正確な位置決めに応用され、インテリジェントな安全性や新しい小売など様々な応用が促進された。
しかし、従来の手法では、カメラキャリブレーションや同期に加えて、ビデオフレームやカメラビューごとに人間の注釈付き歩行者位置からの監督に依存しており、重荷となっている。
そこで,本論文では,マルチビュー歩行者検出のためのアノテーションを不要にするため,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
1) セマンティック・アウェア・イテレーティブ・セグメンテーション(SIS)は, 教師なし事前訓練モデルを用いて, 異なるカメラビューから入力画像の識別的視覚表現を抽出し, 提案した反復主成分分析と視覚言語事前訓練モデルからゼロショットセマンティッククラスに基づいて, 歩行者の2次元セグメントに変換する。
2)第2に,3dボクセルの密度や色をsis,画像,カメラポーズのマスクで学習するだけでなく,歩行者の身体的特性に応じてボクセルを地上面に対して垂直に拘束する垂直認識差分レンダリング(vdr)を提案する。
3) vdrが学習した3次元ボクセルの密度を鳥眼視に投影して最終検出結果とする。
一般的な多視点歩行者検出ベンチマーク、すなわちWildtrackとMultiviewXの広範な実験により、提案したUMPDアプローチが、我々の最良知識に対する最初の教師なし手法であり、従来の最先端の教師付き手法と競合することを示した。
コードは利用可能だ。
関連論文リスト
- Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Unsupervised 3D Keypoint Discovery with Multi-View Geometry [104.76006413355485]
本研究では,多視点画像から人体上の3Dキーポイントを,監督やラベルなしで発見するアルゴリズムを提案する。
我々の手法は、他の最先端の教師なしアプローチと比較して、より解釈可能で正確な3Dキーポイントを発見する。
論文 参考訳(メタデータ) (2022-11-23T10:25:12Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。