論文の概要: Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
- arxiv url: http://arxiv.org/abs/2603.12789v1
- Date: Fri, 13 Mar 2026 08:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.002645
- Title: Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
- Title(参考訳): マルチパーソン・マルチビュー映像からの1パスでの人間シーンのコヒーレントな再構成
- Authors: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park,
- Abstract要約: CHROMMは、カメラ、シーンポイントクラウド、ヒューマンメッシュを多人数のマルチビュービデオから共同で推定する統合フレームワークである。
我々は、Pi3XとMulti-HMRの強力な幾何学的および人間的事前知識を、単一のトレーニング可能なニューラルネットワークアーキテクチャに統合する。
EMDB, RICH, EgoHumans, EgoExo4Dによる実験により, CHROMMはグローバルな人間の動きと多視点ポーズ推定において競争力を発揮することが示された。
- 参考スコア(独自算出の注目度): 36.840809376502314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.
- Abstract(参考訳): 近年の3Dファンデーションモデルの発展により、人間とその周辺環境の再構築への関心が高まっている。
しかし、既存のほとんどのアプローチは単分子入力に重点を置いており、それらをマルチビュー設定に拡張するには追加のオーバーヘッドモジュールや事前処理データが必要である。
この目的のために、外部モジュールや前処理に頼ることなく、カメラ、シーンポイントクラウド、ヒューマンメッシュをマルチパーソンのマルチビュービデオから共同で推定する統合フレームワークであるCHROMMを提案する。
我々は、Pi3XとMulti-HMRからの強い幾何学的および人間的先行を単一のトレーニング可能なニューラルネットワークアーキテクチャに統合し、人間とシーンのスケール差を解決するためのスケール調整モジュールを導入する。
また、複数ビューの融合戦略を導入し、ビュー毎の見積もりをテスト時に単一の表現に集約する。
最後に、外見に基づくアプローチよりも頑健な幾何学に基づく多対人アソシエーション手法を提案する。
EMDB, RICH, EgoHumans, EgoExo4Dによる実験により, CHROMMは, 従来の最適化に基づくマルチビューアプローチよりも8倍高速に動作しながら, グローバルな人間の動きとマルチビューポーズ推定において, 競争力を発揮することが示された。
プロジェクトページ: https://nstar1125.github.io/chromm
関連論文リスト
- Human3R: Everyone Everywhere All at Once [69.16576238974876]
我々はモノクロビデオからオンライン4Dヒューマンシーン再構築のためのフィードフォワードフレームワークであるHuman3Rを提案する。
Human3Rは、重い依存と反復的な改善を取り除く統一モデルである。
グローバルなヒューマンモーション推定、ローカルなヒューマンメッシュリカバリ、ビデオ深度推定、カメラポーズ推定など、タスク間で優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-10-07T17:59:52Z) - MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。
このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。
この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文 参考訳(メタデータ) (2025-03-11T17:50:59Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。