論文の概要: Crowd3D: Towards Hundreds of People Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2301.09376v1
- Date: Mon, 23 Jan 2023 11:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:44:03.571482
- Title: Crowd3D: Towards Hundreds of People Reconstruction from a Single Image
- Title(参考訳): Crowd3D:1枚の画像から数百人の再建を目指す
- Authors: Hao Wen, Jing Huang, Huili Cui, Haozhe Lin, YuKun Lai, Lu Fang and Kun
Li
- Abstract要約: 我々は,1つの大画面画像から数百人のグローバルな一貫性を持つ人々の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
多数の人やさまざまな人体サイズに対応するため,適応型人間中心収穫方式を設計する。
- 参考スコア(独自算出の注目度): 57.58149031283827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based multi-person reconstruction in wide-field large scenes is
critical for crowd analysis and security alert. However, existing methods
cannot deal with large scenes containing hundreds of people, which encounter
the challenges of large number of people, large variations in human scale, and
complex spatial distribution. In this paper, we propose Crowd3D, the first
framework to reconstruct the 3D poses, shapes and locations of hundreds of
people with global consistency from a single large-scene image. The core of our
approach is to convert the problem of complex crowd localization into pixel
localization with the help of our newly defined concept, Human-scene Virtual
Interaction Point (HVIP). To reconstruct the crowd with global consistency, we
propose a progressive reconstruction network based on HVIP by pre-estimating a
scene-level camera and a ground plane. To deal with a large number of persons
and various human sizes, we also design an adaptive human-centric cropping
scheme. Besides, we contribute a benchmark dataset, LargeCrowd, for crowd
reconstruction in a large scene. Experimental results demonstrate the
effectiveness of the proposed method. The code and datasets will be made
public.
- Abstract(参考訳): 広視野大シーンにおける画像に基づく多人数再構築は,群集分析とセキュリティ警告にとって重要である。
しかし、既存の手法では数百人の人々を含む大きなシーンは扱えないため、多くの人々の挑戦、人間の規模の大きなバリエーション、複雑な空間分布に遭遇する。
本稿では,1つの大画面画像からグローバルな一貫性を持つ数百人の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
このアプローチの核心は,新たな概念であるhvip(human-scene virtual interaction point)の助けを借りて,複雑なクラウドローカライゼーションの問題をピクセルローカライゼーションに変換することである。
観客をグローバルな整合性で再構築するために,シーンレベルのカメラと地上平面を事前推定することにより,HVIPに基づく進行的再構成ネットワークを提案する。
多数の人と様々な大きさの人間を扱うため、適応型人間中心のクロッピングスキームも設計する。
さらに,大規模シーンにおける群集再構築のためのベンチマークデータセット largecrowd もコントリビュートする。
実験の結果,提案手法の有効性が示された。
コードとデータセットは公開される予定だ。
関連論文リスト
- Crowd3D++: Robust Monocular Crowd Reconstruction with Upright Space [55.77397543011443]
本研究の目的は、カメラパラメータが不明な1枚の画像から、何百人もの人の3Dポーズ、形状、位置を再構築することである。
Crowd3Dは、複雑な3D人物位置決めを、堅牢なカメラと地上推定で2Dピクセル位置決めに変換するために提案されている。
Crowd3D++は、カメラパラメータの影響を排除し、提案した正準アップライト空間と接地認識正規化変換による収穫操作を行う。
論文 参考訳(メタデータ) (2024-11-09T16:49:59Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - CrowdRec: 3D Crowd Reconstruction from Single Color Images [17.662273473398592]
我々は,群集の特徴を活かし,群集画像に共通する1対1の手法を改善するために,群集制約付き最適化を提案する。
この最適化により、大規模な群集画像から、合理的な絶対位置の正確なボディポーズと形状を得ることができる。
論文 参考訳(メタデータ) (2023-10-10T06:03:39Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained
Frames [59.37430649840777]
野生(Arwild)における3次元アバター再構成を行い,まず暗黙のスキンフィールドを多段階的に再構成する。
大規模なデータセットであるMVP-Humanには400人の被験者が参加し、それぞれ異なるポーズで15のスキャンを行います。
全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターを再構築することができる。
論文 参考訳(メタデータ) (2022-04-24T03:57:59Z) - Body Size and Depth Disambiguation in Multi-Person Reconstruction from
Single Images [44.96633481495911]
複数人物の身体ポーズと1枚の画像からの形状推定の問題に対処する。
我々は,すべての人の足が1階に残るように強制することで,適切な身体規模と相対カメラのポーズを学習する新しい最適化手法を考案した。
MuPoTS-3D と 3DPW データセットの徹底的な評価により,本手法は空間配置を検索しながら,複数の人物の身体翻訳と形状を確実に推定できることが示されている。
論文 参考訳(メタデータ) (2021-11-02T20:42:41Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。