論文の概要: Crowd3D: Towards Hundreds of People Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2301.09376v1
- Date: Mon, 23 Jan 2023 11:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:44:03.571482
- Title: Crowd3D: Towards Hundreds of People Reconstruction from a Single Image
- Title(参考訳): Crowd3D:1枚の画像から数百人の再建を目指す
- Authors: Hao Wen, Jing Huang, Huili Cui, Haozhe Lin, YuKun Lai, Lu Fang and Kun
Li
- Abstract要約: 我々は,1つの大画面画像から数百人のグローバルな一貫性を持つ人々の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
多数の人やさまざまな人体サイズに対応するため,適応型人間中心収穫方式を設計する。
- 参考スコア(独自算出の注目度): 57.58149031283827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based multi-person reconstruction in wide-field large scenes is
critical for crowd analysis and security alert. However, existing methods
cannot deal with large scenes containing hundreds of people, which encounter
the challenges of large number of people, large variations in human scale, and
complex spatial distribution. In this paper, we propose Crowd3D, the first
framework to reconstruct the 3D poses, shapes and locations of hundreds of
people with global consistency from a single large-scene image. The core of our
approach is to convert the problem of complex crowd localization into pixel
localization with the help of our newly defined concept, Human-scene Virtual
Interaction Point (HVIP). To reconstruct the crowd with global consistency, we
propose a progressive reconstruction network based on HVIP by pre-estimating a
scene-level camera and a ground plane. To deal with a large number of persons
and various human sizes, we also design an adaptive human-centric cropping
scheme. Besides, we contribute a benchmark dataset, LargeCrowd, for crowd
reconstruction in a large scene. Experimental results demonstrate the
effectiveness of the proposed method. The code and datasets will be made
public.
- Abstract(参考訳): 広視野大シーンにおける画像に基づく多人数再構築は,群集分析とセキュリティ警告にとって重要である。
しかし、既存の手法では数百人の人々を含む大きなシーンは扱えないため、多くの人々の挑戦、人間の規模の大きなバリエーション、複雑な空間分布に遭遇する。
本稿では,1つの大画面画像からグローバルな一貫性を持つ数百人の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
このアプローチの核心は,新たな概念であるhvip(human-scene virtual interaction point)の助けを借りて,複雑なクラウドローカライゼーションの問題をピクセルローカライゼーションに変換することである。
観客をグローバルな整合性で再構築するために,シーンレベルのカメラと地上平面を事前推定することにより,HVIPに基づく進行的再構成ネットワークを提案する。
多数の人と様々な大きさの人間を扱うため、適応型人間中心のクロッピングスキームも設計する。
さらに,大規模シーンにおける群集再構築のためのベンチマークデータセット largecrowd もコントリビュートする。
実験の結果,提案手法の有効性が示された。
コードとデータセットは公開される予定だ。
関連論文リスト
- Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints [28.234772596912165]
スパースビューから高忠実度体積アバターをモデル化するための高効率なアプローチを提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
実験の結果,先行作業における誤りの大部分は,空間符号化の不適切な選択に起因することがわかった。
論文 参考訳(メタデータ) (2022-05-10T15:57:03Z) - MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained
Frames [59.37430649840777]
野生(Arwild)における3次元アバター再構成を行い,まず暗黙のスキンフィールドを多段階的に再構成する。
大規模なデータセットであるMVP-Humanには400人の被験者が参加し、それぞれ異なるポーズで15のスキャンを行います。
全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターを再構築することができる。
論文 参考訳(メタデータ) (2022-04-24T03:57:59Z) - Body Size and Depth Disambiguation in Multi-Person Reconstruction from
Single Images [44.96633481495911]
複数人物の身体ポーズと1枚の画像からの形状推定の問題に対処する。
我々は,すべての人の足が1階に残るように強制することで,適切な身体規模と相対カメラのポーズを学習する新しい最適化手法を考案した。
MuPoTS-3D と 3DPW データセットの徹底的な評価により,本手法は空間配置を検索しながら,複数の人物の身体翻訳と形状を確実に推定できることが示されている。
論文 参考訳(メタデータ) (2021-11-02T20:42:41Z) - ARCH++: Animation-Ready Clothed Human Reconstruction Revisited [82.83445332309238]
任意の服装スタイルで3Dアバターを再構成する画像ベースARCH++を提案する。
再建されたアバターは、入力ビューから見える領域と見えない領域の両方において、アニメーションに対応しており、非常にリアルである。
論文 参考訳(メタデータ) (2021-08-17T19:27:12Z) - Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism
for Crowd Counting [33.09330894823192]
背景雑音とスケール変動は、群集数で長年認識されてきた一般的な問題である。
本研究では,人間のトップダウン視覚知覚機構をモデル化し,RANetと呼ばれる領域認識ブロックを用いた新しいフィードバックネットワークを提案する。
提案手法は,いくつかの公開データセットにおいて,最先端の群集カウント法より優れる。
論文 参考訳(メタデータ) (2021-06-23T05:11:58Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。