論文の概要: RCR: Robust Crowd Reconstruction with Upright Space from a Single Large-scene Image
- arxiv url: http://arxiv.org/abs/2411.06232v2
- Date: Fri, 23 May 2025 10:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.666397
- Title: RCR: Robust Crowd Reconstruction with Upright Space from a Single Large-scene Image
- Title(参考訳): RCR:1枚の大画面画像からの直立空間によるロバストな群衆再構成
- Authors: Jing Huang, Hao Wen, Tianyi Zhou, Haozhe Lin, Yu-kun Lai, Kun Li,
- Abstract要約: 本稿では,1枚の大シーン画像から空間的に一貫した数百の人間のポーズと形状復元に焦点を当てた。
まず,HVIP(Human-Scene Virtual Interaction Point)という概念を提案し,複雑な3次元人物位置を2次元画素位置に変換する。
次に、RCR(Robust Crowd Reconstruction)に拡張し、異なるカメラFoV上で一貫した再構築と安定な一般化を実現する。
- 参考スコア(独自算出の注目度): 55.77397543011443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on spatially consistent hundreds of human pose and shape reconstruction from a single large-scene image with various human scales under arbitrary camera FoVs (Fields of View). Due to the small and highly varying 2D human scales, depth ambiguity, and perspective distortion, no existing methods can achieve globally consistent reconstruction with correct reprojection. To address these challenges, we first propose a new concept, Human-scene Virtual Interaction Point (HVIP), to convert the complex 3D human localization into 2D-pixel localization. We then extend it to RCR (Robust Crowd Reconstruction), which achieves globally consistent reconstruction and stable generalization on different camera FoVs without test-time optimization. To perceive humans in varying pixel sizes, we propose an Iterative Ground-aware Cropping to automatically crop the image and then merge the results. To eliminate the influence of the camera and cropping process during the reconstruction, we introduce a canonical Upright 3D Space and the corresponding Upright 2D Space. To link the canonical space and the camera space, we propose the Upright Normalization, which transforms the local crop input into the Upright 2D Space, and transforms the output from the Upright 3D Space into the unified camera space. Besides, we contribute two benchmark datasets, LargeCrowd and SynCrowd, for evaluating crowd reconstruction in large scenes. Experimental results demonstrate the effectiveness of the proposed method. The source code and data will be publicly available for research purposes.
- Abstract(参考訳): 本稿では、任意カメラFoV(Fields of View)の下で、様々な人間のスケールを持つ1つの大きなシーン画像から、空間的に一貫した数百の人間のポーズと形状の再構築に焦点を当てた。
小型で高度に変化する2次元の人体スケール、深さのあいまいさ、視点の歪みのため、既存の方法では正しい再投影で一貫した再構築ができない。
これらの課題に対処するために、我々はまず、複雑な3次元の人間の位置を2Dピクセルの局所化に変換する新しい概念であるHuman-Scene Virtual Interaction Point (HVIP)を提案する。
次に、RCR(Robust Crowd Reconstruction)に拡張し、テスト時間最適化なしで、異なるカメラFoV上で一貫した再構築と安定な一般化を実現する。
異なるピクセルサイズで人間を知覚するために,画像の自動抽出とマージを行うイテレーティブグラウンド・アウェア・クロップを提案する。
再建時のカメラの影響や収穫過程をなくすため,標準的なアップライト3次元空間とそれに対応するアップライト2次元空間を導入する。
標準空間とカメラ空間を結びつけるために,局所的な作物の入力をアップライト2D空間に変換し,アップライト3D空間からの出力を統一カメラ空間に変換するアップライト正規化を提案する。
さらに,大画面での群集復元を評価するために,LargeCrowdとSynCrowdの2つのベンチマークデータセットをコントリビュートした。
実験の結果,提案手法の有効性が示された。
ソースコードとデータは、研究目的で公開されます。
関連論文リスト
- PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - Reconstructing People, Places, and Cameras [57.81696692335401]
Humans and Structure from Motion (HSfM) は、メカニカルワールド座標系において、複数の人メッシュ、シーンポイント雲、カメラパラメータを共同で再構築する手法である。
以上の結果から,SfMパイプラインに人体データを組み込むことで,カメラのポーズ推定が改善された。
論文 参考訳(メタデータ) (2024-12-23T18:58:34Z) - Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文 参考訳(メタデータ) (2024-04-22T17:59:50Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Crowd3D: Towards Hundreds of People Reconstruction from a Single Image [57.58149031283827]
我々は,1つの大画面画像から数百人のグローバルな一貫性を持つ人々の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
多数の人やさまざまな人体サイズに対応するため,適応型人間中心収穫方式を設計する。
論文 参考訳(メタデータ) (2023-01-23T11:45:27Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文 参考訳(メタデータ) (2020-10-31T04:35:24Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。