論文の概要: RCR: Robust Crowd Reconstruction with Upright Space from a Single Large-scene Image
- arxiv url: http://arxiv.org/abs/2411.06232v2
- Date: Fri, 23 May 2025 10:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.666397
- Title: RCR: Robust Crowd Reconstruction with Upright Space from a Single Large-scene Image
- Title(参考訳): RCR:1枚の大画面画像からの直立空間によるロバストな群衆再構成
- Authors: Jing Huang, Hao Wen, Tianyi Zhou, Haozhe Lin, Yu-kun Lai, Kun Li,
- Abstract要約: 本稿では,1枚の大シーン画像から空間的に一貫した数百の人間のポーズと形状復元に焦点を当てた。
まず,HVIP(Human-Scene Virtual Interaction Point)という概念を提案し,複雑な3次元人物位置を2次元画素位置に変換する。
次に、RCR(Robust Crowd Reconstruction)に拡張し、異なるカメラFoV上で一貫した再構築と安定な一般化を実現する。
- 参考スコア(独自算出の注目度): 55.77397543011443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on spatially consistent hundreds of human pose and shape reconstruction from a single large-scene image with various human scales under arbitrary camera FoVs (Fields of View). Due to the small and highly varying 2D human scales, depth ambiguity, and perspective distortion, no existing methods can achieve globally consistent reconstruction with correct reprojection. To address these challenges, we first propose a new concept, Human-scene Virtual Interaction Point (HVIP), to convert the complex 3D human localization into 2D-pixel localization. We then extend it to RCR (Robust Crowd Reconstruction), which achieves globally consistent reconstruction and stable generalization on different camera FoVs without test-time optimization. To perceive humans in varying pixel sizes, we propose an Iterative Ground-aware Cropping to automatically crop the image and then merge the results. To eliminate the influence of the camera and cropping process during the reconstruction, we introduce a canonical Upright 3D Space and the corresponding Upright 2D Space. To link the canonical space and the camera space, we propose the Upright Normalization, which transforms the local crop input into the Upright 2D Space, and transforms the output from the Upright 3D Space into the unified camera space. Besides, we contribute two benchmark datasets, LargeCrowd and SynCrowd, for evaluating crowd reconstruction in large scenes. Experimental results demonstrate the effectiveness of the proposed method. The source code and data will be publicly available for research purposes.
- Abstract(参考訳): 本稿では、任意カメラFoV(Fields of View)の下で、様々な人間のスケールを持つ1つの大きなシーン画像から、空間的に一貫した数百の人間のポーズと形状の再構築に焦点を当てた。
小型で高度に変化する2次元の人体スケール、深さのあいまいさ、視点の歪みのため、既存の方法では正しい再投影で一貫した再構築ができない。
これらの課題に対処するために、我々はまず、複雑な3次元の人間の位置を2Dピクセルの局所化に変換する新しい概念であるHuman-Scene Virtual Interaction Point (HVIP)を提案する。
次に、RCR(Robust Crowd Reconstruction)に拡張し、テスト時間最適化なしで、異なるカメラFoV上で一貫した再構築と安定な一般化を実現する。
異なるピクセルサイズで人間を知覚するために,画像の自動抽出とマージを行うイテレーティブグラウンド・アウェア・クロップを提案する。
再建時のカメラの影響や収穫過程をなくすため,標準的なアップライト3次元空間とそれに対応するアップライト2次元空間を導入する。
標準空間とカメラ空間を結びつけるために,局所的な作物の入力をアップライト2D空間に変換し,アップライト3D空間からの出力を統一カメラ空間に変換するアップライト正規化を提案する。
さらに,大画面での群集復元を評価するために,LargeCrowdとSynCrowdの2つのベンチマークデータセットをコントリビュートした。
実験の結果,提案手法の有効性が示された。
ソースコードとデータは、研究目的で公開されます。
関連論文リスト
- MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Crowd3D: Towards Hundreds of People Reconstruction from a Single Image [57.58149031283827]
我々は,1つの大画面画像から数百人のグローバルな一貫性を持つ人々の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
多数の人やさまざまな人体サイズに対応するため,適応型人間中心収穫方式を設計する。
論文 参考訳(メタデータ) (2023-01-23T11:45:27Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。