論文の概要: Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space
- arxiv url: http://arxiv.org/abs/2511.13282v1
- Date: Mon, 17 Nov 2025 12:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.196356
- Title: Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space
- Title(参考訳): カメラ空間におけるヒト群集の同時最適化によるメトリクス認識型マルチパーソンメッシュ回復に向けて
- Authors: Kaiwen Wang, Kaili Zheng, Yiming Shi, Chenyi Guo, Ji Wu,
- Abstract要約: In-the-the-wild Human Mesh pseudo-ground-Truth (pGT) 生成パイプラインは、個人中心である。
本研究では,群集内の全個人のカメラ空間翻訳を改良する新しい最適化手法を提案する。
DTOを4D-Humansデータセットに適用し、DTO-Humansという新しい大規模pGTデータセットを構築した。
- 参考スコア(独自算出の注目度): 9.795479102842622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-person human mesh recovery from a single image is a challenging task, hindered by the scarcity of in-the-wild training data. Prevailing in-the-wild human mesh pseudo-ground-truth (pGT) generation pipelines are single-person-centric, where each human is processed individually without joint optimization. This oversight leads to a lack of scene-level consistency, producing individuals with conflicting depths and scales within the same image. To address this, we introduce Depth-conditioned Translation Optimization (DTO), a novel optimization-based method that jointly refines the camera-space translations of all individuals in a crowd. By leveraging anthropometric priors on human height and depth cues from a monocular depth estimator, DTO solves for a scene-consistent placement of all subjects within a principled Maximum a posteriori (MAP) framework. Applying DTO to the 4D-Humans dataset, we construct DTO-Humans, a new large-scale pGT dataset of 0.56M high-quality, scene-consistent multi-person images, featuring dense crowds with an average of 4.8 persons per image. Furthermore, we propose Metric-Aware HMR, an end-to-end network that directly estimates human mesh and camera parameters in metric scale. This is enabled by a camera branch and a novel relative metric loss that enforces plausible relative scales. Extensive experiments demonstrate that our method achieves state-of-the-art performance on relative depth reasoning and human mesh recovery. Code and data will be released publicly.
- Abstract(参考訳): 単一画像からの複数人のメッシュリカバリは、Wildトレーニングデータの不足によって妨げられる、困難な作業である。
一般的な人間のメッシュ擬似地下構造(pGT)生成パイプラインは、一対一中心であり、それぞれが共同最適化なしで個別に処理される。
この監視はシーンレベルの一貫性の欠如につながります。
そこで本稿では,DTO(Depth-conditioned Translation Optimization)を提案する。DTO(Depth-conditioned Translation Optimization)は,群衆の全個人のカメラ空間翻訳を共同で洗練する,新しい最適化手法である。
単眼深度推定装置から人身長と深度を人類学的に推定することにより、DTOは、原則化された最大被写体(MAP)フレームワーク内のすべての被写体のシーン一貫性のある配置を解決する。
DTOを4D-Humansデータセットに適用し、DTO-Humansという新しい大規模pGTデータセットを構築した。
さらに、人間のメッシュとカメラパラメータを直接メトリックスケールで推定するエンドツーエンドネットワークであるMetric-Aware HMRを提案する。
これは、カメラブランチと、可塑性相対スケールを強制する新しい相対的損失によって実現される。
大規模な実験により,本手法は相対深度推論と人間のメッシュ回復における最先端性能を実現することが実証された。
コードとデータは公開されます。
関連論文リスト
- Human3R: Everyone Everywhere All at Once [69.16576238974876]
我々はモノクロビデオからオンライン4Dヒューマンシーン再構築のためのフィードフォワードフレームワークであるHuman3Rを提案する。
Human3Rは、重い依存と反復的な改善を取り除く統一モデルである。
グローバルなヒューマンモーション推定、ローカルなヒューマンメッシュリカバリ、ビデオ深度推定、カメラポーズ推定など、タスク間で優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-10-07T17:59:52Z) - Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining [12.950323493528508]
本稿では,人中心型事前学習法のデータのスケーラビリティを向上する。
離散コサイン変換(DCT)による周波数空間におけるRGB画像の意味情報の検討
また,キーポイントとDCTマップを用いてRGB画像抽出装置を強制する補助タスクを記述した新しいアノテーションを提案する。
論文 参考訳(メタデータ) (2025-04-29T14:14:29Z) - Reconstructing People, Places, and Cameras [57.81696692335401]
Humans and Structure from Motion (HSfM) は、メカニカルワールド座標系において、複数の人メッシュ、シーンポイント雲、カメラパラメータを共同で再構築する手法である。
以上の結果から,SfMパイプラインに人体データを組み込むことで,カメラのポーズ推定が改善された。
論文 参考訳(メタデータ) (2024-12-23T18:58:34Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。