論文の概要: OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction
- arxiv url: http://arxiv.org/abs/2604.21575v1
- Date: Thu, 23 Apr 2026 11:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.477602
- Title: OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction
- Title(参考訳): OmniFit:スケール非依存のランドマーク予測によるマルチモーダル3Dボディフィッティング
- Authors: Zeyu Cai, Yuliang Xiu, Renke Wang, Zhijing Shao, Xiaoben Li, Siyuan Yu, Chao Xu, Yang Liu, Baigui Sun, Jian Yang, Zhenyu Zhang,
- Abstract要約: OmniFitは、フルスキャン、部分深度観察、画像キャプチャなど、多様なマルチモーダル入力をシームレスに処理する手法である。
マルチビュー最適化ベースラインを超える最初のボディーフィッティング法であり、CAPEと4D-DRESSベンチマークでミリレベルの精度を達成した最初の方法である。
- 参考スコア(独自算出の注目度): 32.22145223473573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fitting an underlying body model to 3D clothed human assets has been extensively studied, yet most approaches focus on either single-modal inputs such as point clouds or multi-view images alone, often requiring a known metric scale. This constraint is frequently impractical, especially for AI-generated assets where scale distortion is common. We propose OmniFit, a method that can seamlessly handle diverse multi-modal inputs, including full scans, partial depth observations, and image captures, while remaining scale-agnostic for both real and synthetic assets. Our key innovation is a simple yet effective conditional transformer decoder that directly maps surface points to dense body landmarks, which are then used for SMPL-X parameter fitting. In addition, an optional plug-and-play image adapter incorporates visual cues to compensate for missing geometric information. We further introduce a dedicated scale predictor that rescales subjects to canonical body proportions. OmniFit substantially outperforms state-of-the-art methods by 57.1 to 80.9 percent across daily and loose clothing scenarios. To the best of our knowledge, it is the first body fitting method to surpass multi-view optimization baselines and the first to achieve millimeter-level accuracy on the CAPE and 4D-DRESS benchmarks.
- Abstract(参考訳): 基礎となるボディモデルを3次元の人間の資産に適合させることは、広く研究されているが、ほとんどのアプローチは、ポイントクラウドやマルチビュー画像のような単一モードの入力に焦点を合わせており、しばしば既知のメートル法を必要とする。
この制約は、特にスケール歪みが一般的であるAI生成資産では、しばしば非現実的である。
我々はOmniFitを提案する。OmniFitは、全スキャン、部分深度観測、画像キャプチャを含む多様なマルチモーダル入力をシームレスに処理できる手法である。
我々の重要な革新は、表面の点を直接高密度なボディランドマークにマッピングする単純だが効果的な条件変圧器デコーダで、SMPL-Xパラメータフィッティングに使用される。
さらに、オプションのプラグイン・アンド・プレイ・イメージ・アダプタは、視覚的手がかりを取り入れ、幾何学的情報の欠如を補う。
さらに、被験者を正準体比に再スケールする専用スケール予測器を導入する。
OmniFitは、日常やゆるい衣服のシナリオにおいて、最先端の手法を57.1から80.9%上回っている。
我々の知る限り、多視点最適化ベースラインを超える最初のボディーフィッティング法であり、CAPEおよび4D-DRESSベンチマークでミリレベルの精度を達成する最初の方法である。
関連論文リスト
- MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources [25.21242040780486]
Metric Anythingは、メートル法深度推定のためのシンプルでスケーラブルな事前トレーニングフレームワークである。
手作業によるプロンプトなしで、ノイズの多い多様な3Dソースからメトリクスの深さを学習する。
Metric Anythingは、現代的な基礎モデルを動かすのと同じスケーリング法則の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2026-01-29T17:52:41Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。