論文の概要: SAM 3D Body: Robust Full-Body Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2602.15989v1
- Date: Tue, 17 Feb 2026 20:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.429922
- Title: SAM 3D Body: Robust Full-Body Human Mesh Recovery
- Title(参考訳): SAM 3Dボディ:フルボディの人体メッシュ復元
- Authors: Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani,
- Abstract要約: シングルイメージフルボディ3Dヒューマンメッシュリカバリ(HMR)のためのアクセラブルモデルSAM 3D Body (3DB)を紹介する。
3DBは、身体、足、手の人間のポーズを推定します。
骨格構造と表面形状を分離する新しいパラメトリックメッシュ表現であるMomentum Human Rig(MHR)を使用した最初のモデルである。
- 参考スコア(独自算出の注目度): 65.0108906331903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.
- Abstract(参考訳): SAM 3D Body (3DB) は,最先端の性能を示す単一画像のフルボディー・ヒューマンメッシュ・リカバリ(HMR) モデルであり,多種多様な環境下での高度な一般化と一貫した精度を実現している。
3DBは、身体、足、手の人間のポーズを推定します。
骨格構造と表面形状を分離する新しいパラメトリックメッシュ表現であるMomentum Human Rig(MHR)を使用した最初のモデルである。
3DBはエンコーダ・デコーダアーキテクチャを採用し、2Dキーポイントやマスクを含む補助的なプロンプトをサポートし、SAMモデルのファミリーと同様のユーザー誘導推論を可能にする。
我々は、手動キーポイントアノテーション、微分可能最適化、多視点幾何、および高密度キーポイント検出の様々な組み合わせを利用する多段階アノテーションパイプラインから高品質なアノテーションを導出する。
データエンジンはデータを効率よく選択・処理し、データの多様性を確保し、異常なポーズや稀な撮像条件を収集する。
本稿では,ポーズカテゴリと外観カテゴリによって構成された新しい評価データセットを提案する。
本実験は,定性的ユーザ嗜好研究と従来の定量的分析の両方において,従来の方法よりも優れた一般化と実質的な改善を示す。
3DBとMHRはどちらもオープンソースである。
関連論文リスト
- DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior [82.9526308672547]
DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。
提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。
我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2025-08-01T12:56:39Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling [11.885382595302751]
マルチビュー・アンキャリブレーション画像による再構成では,キャパシティがより高められた新しいモデルが要求される。
適応スキニングモデル (Adaptive Skinning Model, ASM) を提案する。
本研究は,パラメトリック顔モデル研究の新たな方向性を開拓し,多視点再構成の今後の研究を促進するものである。
論文 参考訳(メタデータ) (2023-04-19T04:55:28Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。