論文の概要: GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images
- arxiv url: http://arxiv.org/abs/2505.06575v1
- Date: Sat, 10 May 2025 09:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.920008
- Title: GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images
- Title(参考訳): GRACE:2次元画像から幾何学レベルの3次元ヒューマン・シーン・コンタクトを推定する
- Authors: Chengfeng Wang, Wei Zhai, Yuhang Yang, Yang Cao, Zhengjun Zha,
- Abstract要約: 人景接触の幾何レベルを推定することは、特定の接触面点を3次元の人間ジオメトリに接することを目的としている。
GRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)は,3次元接触推定のための新しいパラダイムである。
ポイントクラウドエンコーダ/デコーダアーキテクチャと階層的特徴抽出と融合モジュールが組み込まれている。
- 参考スコア(独自算出の注目度): 54.602947113980655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the geometry level of human-scene contact aims to ground specific contact surface points at 3D human geometries, which provides a spatial prior and bridges the interaction between human and scene, supporting applications such as human behavior analysis, embodied AI, and AR/VR. To complete the task, existing approaches predominantly rely on parametric human models (e.g., SMPL), which establish correspondences between images and contact regions through fixed SMPL vertex sequences. This actually completes the mapping from image features to an ordered sequence. However, this approach lacks consideration of geometry, limiting its generalizability in distinct human geometries. In this paper, we introduce GRACE (Geometry-level Reasoning for 3D Human-scene Contact Estimation), a new paradigm for 3D human contact estimation. GRACE incorporates a point cloud encoder-decoder architecture along with a hierarchical feature extraction and fusion module, enabling the effective integration of 3D human geometric structures with 2D interaction semantics derived from images. Guided by visual cues, GRACE establishes an implicit mapping from geometric features to the vertex space of the 3D human mesh, thereby achieving accurate modeling of contact regions. This design ensures high prediction accuracy and endows the framework with strong generalization capability across diverse human geometries. Extensive experiments on multiple benchmark datasets demonstrate that GRACE achieves state-of-the-art performance in contact estimation, with additional results further validating its robust generalization to unstructured human point clouds.
- Abstract(参考訳): 人間の身近な接触の幾何学レベルを推定することは、人間とシーンの相互作用を橋渡しし、人間の行動分析、具体化AI、AR/VRなどの応用を支援する空間的事前情報を提供する3次元人的空間に特定の接触面点を接地することを目的としている。
タスクを完了させるためには、既存のアプローチは主に、固定されたSMPL頂点シーケンスを通して画像と接触領域の対応を確立するパラメトリックヒューマンモデル(例えば、SMPL)に依存している。
これは、画像の特徴から順序付けられたシーケンスへのマッピングを実際に完了します。
しかし、このアプローチは幾何学的考察を欠き、その一般化可能性を制限する。
本稿では,3次元接触推定のための新しいパラダイムであるGRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)を紹介する。
GRACEは、階層的な特徴抽出と融合モジュールとともに、ポイントクラウドエンコーダ・デコーダアーキテクチャを導入し、画像から派生した2次元インタラクションセマンティクスと3次元人間の幾何学構造を効果的に統合することを可能にする。
GRACEは3次元メッシュの頂点空間への幾何学的特徴から暗黙のマッピングを確立し、接触領域の正確なモデリングを実現する。
この設計により、高い予測精度が保証され、多種多様な人的空間にまたがる強力な一般化能力を持つフレームワークが提供される。
複数のベンチマークデータセットに対する大規模な実験により、GRACEは接触推定における最先端のパフォーマンスを達成し、さらに、非構造化の人点雲への堅牢な一般化をさらに検証した。
関連論文リスト
- GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Gaussian Control with Hierarchical Semantic Graphs in 3D Human Recovery [15.58274601909995]
高忠実度3次元再構成を実現するための階層型人ガウス制御(HUGS)フレームワークを提案する。
我々のアプローチは、幾何学的トポロジーの整合性を確保するために、身体部分の明示的な意味的先行性を活用することである。
本手法は, 人体再建における優れた性能, 特に表面の細部を向上し, 体部接合部を正確に再構築する上での優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T03:40:56Z) - PGAHum: Prior-Guided Geometry and Appearance Learning for High-Fidelity Animatable Human Reconstruction [9.231326291897817]
我々はPGAHumを紹介した。PGAHumは、高忠実でアニマタブルな人体再構成のための、事前ガイダンス付き幾何学および外観学習フレームワークである。
我々はPGAHumの3つの主要モジュールにおける3次元人体前駆体を徹底的に利用し、複雑な細部と見えないポーズのフォトリアリスティックなビュー合成による高品質な幾何再構成を実現する。
論文 参考訳(メタデータ) (2024-04-22T04:22:30Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。