論文の概要: AHAP: Reconstructing Arbitrary Humans from Arbitrary Perspectives with Geometric Priors
- arxiv url: http://arxiv.org/abs/2602.23951v1
- Date: Fri, 27 Feb 2026 11:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.403359
- Title: AHAP: Reconstructing Arbitrary Humans from Arbitrary Perspectives with Geometric Priors
- Title(参考訳): AHAP:幾何学的優先順位による任意視点からの任意人の再構築
- Authors: Xiaozhen Qiao, Wenjia Wang, Zhiyuan Zhao, Jiacheng Sun, Ping Luo, Hongyuan Zhang, Xuelong Li,
- Abstract要約: 任意のカメラ視点から任意の人間を再構築するためのフィードフォワードフレームワークである textbfAHAP を提案する。
私たちの中核は、人間同士の結びつき、再構築、局在化を支援するために、多視点幾何学を効果的に融合することにあります。
Human Headは、SMPL予測のためのクロスビュー機能とシーンコンテキストを融合し、ボディポーズの一貫性を強制するために、クロスビューの再投影損失によってガイドされる。
- 参考スコア(独自算出の注目度): 81.50960055126156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing 3D humans from images captured at multiple perspectives typically requires pre-calibration, like using checkerboards or MVS algorithms, which limits scalability and applicability in diverse real-world scenarios. In this work, we present \textbf{AHAP} (Reconstructing \textbf{A}rbitrary \textbf{H}umans from \textbf{A}rbitrary \textbf{P}erspectives), a feed-forward framework for reconstructing arbitrary humans from arbitrary camera perspectives without requiring camera calibration. Our core lies in the effective fusion of multi-view geometry to assist human association, reconstruction and localization. Specifically, we use a Cross-View Identity Association module through learnable person queries and soft assignment, supervised by contrastive learning to resolve cross-view human identity association. A Human Head fuses cross-view features and scene context for SMPL prediction, guided by cross-view reprojection losses to enforce body pose consistency. Additionally, multi-view geometry eliminates the depth ambiguity inherent in monocular methods, providing more precise 3D human localization through multi-view triangulation. Experiments on EgoHumans and EgoExo4D demonstrate that AHAP achieves competitive performance on both world-space human reconstruction and camera pose estimation, while being 180$\times$ faster than optimization-based approaches.
- Abstract(参考訳): 複数の視点でキャプチャされた画像から3Dヒューマンを再構築するには、さまざまな現実世界のシナリオにおけるスケーラビリティと適用性を制限したチェッカーボードやMSVアルゴリズムを使用するような事前校正が必要である。
本稿では、カメラキャリブレーションを必要とせず、任意のカメラ視点から任意の人間を再構築するためのフィードフォワードフレームワークである「textbf{A}rbitrary \textbf{H}umans from \textbf{A}rbitrary \textbf{P}erspectives」を提案する。
私たちの中核は、人間同士の結びつき、再構築、局在化を支援するために、多視点幾何学を効果的に融合することにあります。
具体的には,クロスビュー・アイデンティティ・アソシエイト・アソシエーション・モジュールを学習可能な人物質問やソフト・アサインを通じて使用し,コントラッシブ・ラーニングによって指導され,クロスビュー・アイデンティティ・アソシエーションの解決を行う。
Human Headは、SMPL予測のためのクロスビュー機能とシーンコンテキストを融合し、ボディポーズの一貫性を強制するために、クロスビューの再投影損失によってガイドされる。
さらに、多視点幾何は単分子法に固有の深度あいまいさを排除し、多視点三角測量によるより正確な3次元人物像定位を提供する。
EgoHumansとEgoExo4Dの実験では、AHAPは、最適化ベースのアプローチよりも180$\times$の速さで、世界空間の人間再構成とカメラポーズ推定の両方で競争性能を達成している。
関連論文リスト
- InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文 参考訳(メタデータ) (2026-01-05T13:26:02Z) - HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction [15.368018463074058]
HAMSt3Rは、スパース・アンキャリブレーション画像からのヒトとシーンの3D再構成のためのMASt3Rの拡張である。
提案手法では,人間をセグメント化したり,DensePose経由での密接な通信を推定したり,人中心環境における深度を予測したりするために,追加のネットワークヘッドを組み込んだ。
論文 参考訳(メタデータ) (2025-08-22T14:43:18Z) - PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image [37.16845070245751]
我々は,1つの隠蔽画像から複数視点の整合性を持つ3次元人体を再構成するための新しいパイプラインを提案する。
そして、3次元再構成モデルを用いて、隠蔽された入力と合成されたビューの両方に条件付き3次元ガウスの集合を予測する。
新規なビュー合成(最大3dbPSNR)と、挑戦的な条件下での幾何学的再構成の両方において、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-03-19T19:56:18Z) - Reconstructing People, Places, and Cameras [57.81696692335401]
Humans and Structure from Motion (HSfM) は、メカニカルワールド座標系において、複数の人メッシュ、シーンポイント雲、カメラパラメータを共同で再構築する手法である。
以上の結果から,SfMパイプラインに人体データを組み込むことで,カメラのポーズ推定が改善された。
論文 参考訳(メタデータ) (2024-12-23T18:58:34Z) - RCR: Robust Crowd Reconstruction with Upright Space from a Single Large-scene Image [55.77397543011443]
本稿では,1枚の大シーン画像から空間的に一貫した数百の人間のポーズと形状復元に焦点を当てた。
まず,HVIP(Human-Scene Virtual Interaction Point)という概念を提案し,複雑な3次元人物位置を2次元画素位置に変換する。
次に、RCR(Robust Crowd Reconstruction)に拡張し、異なるカメラFoV上で一貫した再構築と安定な一般化を実現する。
論文 参考訳(メタデータ) (2024-11-09T16:49:59Z) - Body Size and Depth Disambiguation in Multi-Person Reconstruction from
Single Images [44.96633481495911]
複数人物の身体ポーズと1枚の画像からの形状推定の問題に対処する。
我々は,すべての人の足が1階に残るように強制することで,適切な身体規模と相対カメラのポーズを学習する新しい最適化手法を考案した。
MuPoTS-3D と 3DPW データセットの徹底的な評価により,本手法は空間配置を検索しながら,複数の人物の身体翻訳と形状を確実に推定できることが示されている。
論文 参考訳(メタデータ) (2021-11-02T20:42:41Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。