論文の概要: Human3R: Everyone Everywhere All at Once
- arxiv url: http://arxiv.org/abs/2510.06219v1
- Date: Tue, 07 Oct 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.420118
- Title: Human3R: Everyone Everywhere All at Once
- Title(参考訳): 人間3R:みんな一度にどこにでも
- Authors: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll,
- Abstract要約: 我々はモノクロビデオからオンライン4Dヒューマンシーン再構築のためのフィードフォワードフレームワークであるHuman3Rを提案する。
Human3Rは、重い依存と反復的な改善を取り除く統一モデルである。
グローバルなヒューマンモーション推定、ローカルなヒューマンメッシュリカバリ、ビデオ深度推定、カメラポーズ推定など、タスク間で優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 69.16576238974876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R
- Abstract(参考訳): 我々は、カジュアルにキャプチャーされたモノクロビデオから、オンラインの4D人間シーン再構築のための統合されたフィードフォワードフレームワークであるHuman3Rを紹介する。
多段階のパイプラインに依存する従来のアプローチと異なり、人間とシーン間の反復的な接触認識の洗練、人間検出、深度推定、SLAM前処理といった重い依存関係、ヒューマン3Rはグローバルな多人数SMPL-Xボディを共同で回収する("everyone, dense 3D scene"、"everywhere", and camera trajectories in a single forward pass"、"all-at-once")。
提案手法は4次元オンライン再構成モデルであるCUT3R上に構築され,パラメータ効率のよい視覚的プロンプトチューニングを用いて,CUT3Rの豊富な時空間前兆を保存するとともに,複数のSMPL-Xボディの直接読み出しを可能にする。
Human3Rは、重い依存と反復的な改善を取り除く統一モデルである。
比較的小規模の合成データセットBEDLAMを1つのGPUで1日だけトレーニングした後、優れたパフォーマンスを達成している。複数の人間を1ショットで再構築し、1ステージで3Dシーンをリアルタイムで(15 FPS)、メモリフットプリントが低く(8 GB)。
大規模な実験により、Human3Rは、グローバルなヒューマンモーション推定、ローカルなヒューマンメッシュリカバリ、ビデオ深度推定、カメラポーズ推定など、タスク間での最先端または競合的なパフォーマンスを単一の統一モデルで提供することが示された。
Human3Rがシンプルだが強力なベースラインとして機能し、ダウンストリームアプリケーションに容易に拡張できることを願っている。
関連論文リスト
- HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction [15.368018463074058]
HAMSt3Rは、スパース・アンキャリブレーション画像からのヒトとシーンの3D再構成のためのMASt3Rの拡張である。
提案手法では,人間をセグメント化したり,DensePose経由での密接な通信を推定したり,人中心環境における深度を予測したりするために,追加のネットワークヘッドを組み込んだ。
論文 参考訳(メタデータ) (2025-08-22T14:43:18Z) - HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion [43.95997922499137]
WHAM(World-grounded Humans with Accurate Motion)は、ビデオから世界座標系で3次元の人間の動きを再構成する。
SLAM法から推定されるカメラ角速度と人間の動きを用いて、身体のグローバルな軌跡を推定する。
複数のWildベンチマークで、既存の3Dモーションリカバリ手法よりも優れています。
論文 参考訳(メタデータ) (2023-12-12T18:57:46Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - 3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。
実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。
また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:21Z) - Human POSEitioning System (HPS): 3D Human Pose Estimation and
Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。
最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。
hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文 参考訳(メタデータ) (2021-03-31T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。