論文の概要: 3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera
Pedestrian Localization
- arxiv url: http://arxiv.org/abs/2207.10895v2
- Date: Mon, 25 Jul 2022 17:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 11:26:49.869542
- Title: 3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera
Pedestrian Localization
- Title(参考訳): 深部多カメラペデストリアン局在のための3次元ランダムオクルージョンと多層投影
- Authors: Rui Qiu, Ming Xu, Yuyao Yan, Jeremy S. Smith and Xi Yang
- Abstract要約: 提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 6.929027496437192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep-learning based methods for monocular pedestrian detection have
made great progress, they are still vulnerable to heavy occlusions. Using
multi-view information fusion is a potential solution but has limited
applications, due to the lack of annotated training samples in existing
multi-view datasets, which increases the risk of overfitting. To address this
problem, a data augmentation method is proposed to randomly generate 3D
cylinder occlusions, on the ground plane, which are of the average size of
pedestrians and projected to multiple views, to relieve the impact of
overfitting in the training. Moreover, the feature map of each view is
projected to multiple parallel planes at different heights, by using
homographies, which allows the CNNs to fully utilize the features across the
height of each pedestrian to infer the locations of pedestrians on the ground
plane. The proposed 3DROM method has a greatly improved performance in
comparison with the state-of-the-art deep-learning based methods for multi-view
pedestrian detection.
- Abstract(参考訳): 深層学習に基づく単眼歩行検出法は大きな進歩を遂げているが、それでも重度の閉塞に対して脆弱である。
マルチビュー情報融合は潜在的な解決策であるが、既存のマルチビューデータセットに注釈付きトレーニングサンプルがないため、アプリケーションに制限があるため、オーバーフィッティングのリスクが高まる。
この問題を解決するために, 歩行者の平均的な大きさで複数のビューに投影された地上面上の3次元シリンダー閉塞をランダムに生成し, トレーニングにおける過度な適合の影響を緩和するデータ拡張手法を提案する。
さらに、各視点の特徴マップは、各歩行者の高さにまたがる特徴を十分に活用し、地上平面上の歩行者の位置を推定できるホモグラフを用いて、異なる高さの複数の平行平面に投影される。
提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。
関連論文リスト
- MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Efficient View Clustering and Selection for City-Scale 3D Reconstruction [1.1011268090482573]
本稿では,MVSアルゴリズムを任意の画像集合に拡張するための新しい手法を提案する。
提案手法は、ポーズと幾何学のほぼ均一な分布を利用して、重なり合うクラスタの集合を構築する。
クラスタリングはペアの可視情報とは独立しているため、提案アルゴリズムは既存の文献よりも高速に動作し、大規模な並列化を可能にする。
論文 参考訳(メタデータ) (2022-07-18T08:33:52Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。