論文の概要: GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2604.19624v1
- Date: Tue, 21 Apr 2026 16:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.861992
- Title: GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction
- Title(参考訳): GRAFT:ヒトのシーン再構築のための幾何学的リファインメント・フィッティング・トランス
- Authors: Pradyumna YM, Yuxuan Xue, Yue Chen, Nikita Kister, István Sárándi, Gerard Pons-Moll,
- Abstract要約: GRAFT(Geometric Refinement And Fitting Transformer)は、干渉勾配を予測するための学習されたHSIである。
ライトウェイトトランスフォーマーは、人間のメッシュをリカレントに更新し、シーンを再検証し、最終的なポーズが学習前のものと観察された幾何学の両方に一致することを保証する。
実験により、GRAFTは最先端のフィードフォワード法よりも最大113%のインタラクション品質を改善することが示された。
- 参考スコア(独自算出の注目度): 32.688160754014284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing physically plausible 3D human-scene interactions (HSI) from a single image currently presents a trade-off: optimization based methods offer accurate contact but are slow (~20s), while feed-forward approaches are fast yet lack explicit interaction reasoning, producing floating and interpenetration artifacts. Our key insight is that geometry-based human--scene fitting can be amortized into fast feed-forward inference. We present GRAFT (Geometric Refinement And Fitting Transformer), a learned HSI prior that predicts Interaction Gradients: corrective parameter updates that iteratively refine human meshes by reasoning about their 3D relationship to the surrounding scene. GRAFT encodes the interaction state into compact body-anchored tokens, each grounded in the scene geometry via Geometric Probes that capture spatial relationships with nearby surfaces. A lightweight transformer recurrently updates human meshes and re-probes the scene, ensuring the final pose aligns with both learned priors and observed geometry. GRAFT operates either as an end-to-end reconstructor using image features, or with geometry alone as a transferable plug-and-play HSI prior that improves feed-forward methods without retraining. Experiments show GRAFT improves interaction quality by up to 113% over state-of-the-art feed-forward methods and matches optimization-based interaction quality at ${\sim}50{\times}$ lower runtime, while generalizing seamlessly to in-the-wild multi-person scenes and being preferred in 64.8% of three-way user study. Project page: https://pradyumnaym.github.io/graft .
- Abstract(参考訳): 最適化に基づく手法は正確な接触を提供するが、遅い(約20秒)が、フィードフォワードアプローチは高速だが明示的な相互作用推論を欠いている。
我々の重要な洞察は、幾何学に基づく人間のシーンフィッティングは、高速なフィードフォワード推論に再生できるということである。
GRAFT(Geometric Refinement And Fitting Transformer)は,周辺環境との3次元関係を推論して,人間のメッシュを反復的に洗練する,インタラクションの勾配を予測する学習用HSIである。
GRAFTは、相互作用状態をコンパクトなボディアンコールトークンにエンコードし、それぞれが周囲の表面と空間的関係を捉えた幾何学的プローブを介してシーン幾何学に基礎を置いている。
ライトウェイトトランスフォーマーは、人間のメッシュをリカレントに更新し、シーンを再検証し、最終的なポーズが学習前のものと観察された幾何学の両方に一致することを保証する。
GRAFTは画像特徴を用いたエンドツーエンドのコンストラクタとして機能するか、あるいは転送可能なプラグアンドプレイHSIとして幾何学だけで動作し、再トレーニングせずにフィードフォワード法を改善する。
実験の結果、GRAFTは最先端のフィードフォワード方式よりも最大113%のインタラクション品質を向上し、最適化ベースのインタラクション品質を${\sim}50{\times}$ローランタイムと一致させる一方で、Wildのマルチパーソンシーンにシームレスに一般化し、64.8%のユーザスタディで好まれる。
プロジェクトページ: https://pradyumnaym.github.io/graft
関連論文リスト
- Face Anything: 4D Face Reconstruction from Any Image Sequence [49.395407357499074]
そこで本研究では,正準顔点予測に基づく高忠実度4次元顔再構成の統一手法を提案する。
深度と標準座標を共同で予測することにより,正確な深度推定,時間的に安定な再構築,密度の高い3次元形状,頑健な顔点追跡が可能となる。
論文 参考訳(メタデータ) (2026-04-21T17:22:39Z) - GraphiContact: Pose-aware Human-Scene Robust Contact Perception for Interactive Systems [17.089112324421468]
本研究では,2つの事前訓練されたトランスフォーマーエンコーダから人間の先行情報を転送し,再構成メッシュ上での頂点ごとの人間とシーンの接触を予測する。
5つのベンチマークデータセットの実験により、GraphiContactは、接触予測と3D人間の再構築の両方で一貫した利得を達成している。
GraphiContact法をベースとしたコードでは,人間の3次元再構成とインタラクション解析を包括的に行う。
論文 参考訳(メタデータ) (2026-03-19T17:17:04Z) - CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives [65.89192712575797]
本研究では,モノクロ映像から再現可能な人物の動きとシーン形状を復元するCRISPを紹介する。
我々の手法は、人中心のビデオベンチマークにおいて、モーショントラッキングの失敗率を55.2%から6.9%に下げる。
このことは、CRISPが物理的に有意な人間の動きと対話環境を大規模に生成する能力を示している。
論文 参考訳(メタデータ) (2025-12-16T18:59:50Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - HART: Human Aligned Reconstruction Transformer [17.065147884544853]
HARTはスパースビュー人間の再構築のための統一されたフレームワークである。
水密な布メッシュ、整列SMPL-Xボディーメッシュ、ノベルビューレンダリングのためのガウスプレート表現を出力する。
以上の結果から,フィードフォワードトランスフォーマーは実環境における堅牢な人間の再構築のためのスケーラブルなモデルとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-09-30T17:56:02Z) - GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images [54.602947113980655]
人景接触の幾何レベルを推定することは、特定の接触面点を3次元の人間ジオメトリに接することを目的としている。
GRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)は,3次元接触推定のための新しいパラダイムである。
ポイントクラウドエンコーダ/デコーダアーキテクチャと階層的特徴抽出と融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2025-05-10T09:25:46Z) - CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-18T14:29:52Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。