論文の概要: HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2508.16433v1
- Date: Fri, 22 Aug 2025 14:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.416909
- Title: HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction
- Title(参考訳): HAMSt3R:人間を意識したマルチビューステレオ3D再構成
- Authors: Sara Rojas, Matthieu Armando, Bernard Ghamen, Philippe Weinzaepfel, Vincent Leroy, Gregory Rogez,
- Abstract要約: HAMSt3Rは、スパース・アンキャリブレーション画像からのヒトとシーンの3D再構成のためのMASt3Rの拡張である。
提案手法では,人間をセグメント化したり,DensePose経由での密接な通信を推定したり,人中心環境における深度を予測したりするために,追加のネットワークヘッドを組み込んだ。
- 参考スコア(独自算出の注目度): 15.368018463074058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering the 3D geometry of a scene from a sparse set of uncalibrated images is a long-standing problem in computer vision. While recent learning-based approaches such as DUSt3R and MASt3R have demonstrated impressive results by directly predicting dense scene geometry, they are primarily trained on outdoor scenes with static environments and struggle to handle human-centric scenarios. In this work, we introduce HAMSt3R, an extension of MASt3R for joint human and scene 3D reconstruction from sparse, uncalibrated multi-view images. First, we exploit DUNE, a strong image encoder obtained by distilling, among others, the encoders from MASt3R and from a state-of-the-art Human Mesh Recovery (HMR) model, multi-HMR, for a better understanding of scene geometry and human bodies. Our method then incorporates additional network heads to segment people, estimate dense correspondences via DensePose, and predict depth in human-centric environments, enabling a more comprehensive 3D reconstruction. By leveraging the outputs of our different heads, HAMSt3R produces a dense point map enriched with human semantic information in 3D. Unlike existing methods that rely on complex optimization pipelines, our approach is fully feed-forward and efficient, making it suitable for real-world applications. We evaluate our model on EgoHumans and EgoExo4D, two challenging benchmarks con taining diverse human-centric scenarios. Additionally, we validate its generalization to traditional multi-view stereo and multi-view pose regression tasks. Our results demonstrate that our method can reconstruct humans effectively while preserving strong performance in general 3D reconstruction tasks, bridging the gap between human and scene understanding in 3D vision.
- Abstract(参考訳): 未校正画像のスパース集合からシーンの3次元形状を復元することは、コンピュータビジョンにおける長年の問題である。
DUSt3RやMASt3Rのような近年の学習ベースのアプローチは、密集したシーンの幾何学を直接予測することによって、印象的な結果を示しているが、それらは主に、静的な環境と人間中心のシナリオを扱うのに苦労している屋外のシーンで訓練されている。
そこで本研究では, スパース・アンキャリブレーション・マルチビュー画像からのヒトとシーンの3次元再構成のためのMASt3Rの拡張であるHAMSt3Rを紹介する。
まず,MASt3Rや最先端のHuman Mesh Recovery(HMR)モデルであるMulti-HMRのエンコーダを蒸留して得られた強い画像エンコーダであるDUNEを利用して,シーン形状と人体をよりよく理解する。
提案手法は,人間を分割し,DensePoseを介して密接な通信を推定し,人間中心の環境における深度を予測し,より包括的な3D再構築を可能にする。
HAMSt3Rは、私たちの異なる頭部の出力を活用することで、3Dの人間の意味情報に富んだ高密度な点マップを生成する。
複雑な最適化パイプラインに依存する既存の方法とは異なり、我々のアプローチは完全にフィードフォワードで効率的であり、現実世界のアプリケーションに適している。
EgoHumansとEgoExo4Dのモデルを評価する。
さらに,従来の多視点ステレオおよび多視点ポーズ回帰タスクへの一般化を検証する。
提案手法は,3次元視覚における人間とシーンの理解のギャップを埋めつつ,一般的な3次元再構成作業において強い性能を維持しながら,人間を効果的に再構築できることを示す。
関連論文リスト
- PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文 参考訳(メタデータ) (2024-04-22T17:59:50Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies
from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。
このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。
本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文 参考訳(メタデータ) (2021-06-22T04:26:11Z) - StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision [54.920605385622274]
本研究では,立体視の幾何学的制約をPIFuの暗黙的関数表現と統合し,人間の3次元形状を復元するStereoPIFuを提案する。
従来の作品と比較すると, ステレオピフは衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。
論文 参考訳(メタデータ) (2021-04-12T08:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。