論文の概要: GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
- arxiv url: http://arxiv.org/abs/2409.04196v2
- Date: Wed, 16 Apr 2025 14:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 13:01:00.8435
- Title: GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
- Title(参考訳): GST:ガウス散乱変換器を用いた1枚の画像からの精密な3次元人体
- Authors: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht,
- Abstract要約: 単眼画像からポーズ付き3次元モデルを構築することはスポーツ産業において重要な応用である。
人間の3次元ポーズと形状推定を3次元ガウススティング(3DGS)と組み合わせ,ガウスの混合シーンを表現した。
この組み合わせは、高価な拡散モデルや3Dポイントの監督なしに、1つの画像から3次元人間のモデルをほぼリアルタイムで推定できることを示す。
- 参考スコア(独自算出の注目度): 23.96688843662126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing posed 3D human models from monocular images has important applications in the sports industry, including performance tracking, injury prevention and virtual training. In this work, we combine 3D human pose and shape estimation with 3D Gaussian Splatting (3DGS), a representation of the scene composed of a mixture of Gaussians. This allows training or fine-tuning a human model predictor on multi-view images alone, without 3D ground truth. Predicting such mixtures for a human from a single input image is challenging due to self-occlusions and dependence on articulations, while also needing to retain enough flexibility to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate spatial density and approximate initial position for the Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other 3DGS attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve near real-time inference of 3D human models from a single image without expensive diffusion models or 3D points supervision, thus making it ideal for the sport industry at any level. More importantly, rendering is an effective auxiliary objective to refine 3D pose estimation by accounting for clothes and other geometric variations. The code is available at https://github.com/prosperolo/GST.
- Abstract(参考訳): 単眼画像から提示された3次元モデルを再構築することは、スポーツ業界において、パフォーマンストラッキング、傷害防止、バーチャルトレーニングなど、重要な応用となっている。
本研究では,3次元ポーズと形状推定と3次元ガウススティング(3DGS)を組み合わせる。
これにより、人間モデル予測器の訓練や微調整を、マルチビュー画像だけで行うことができる。
単一入力画像からそのような混合物を予測することは、自己閉塞性や調音への依存から困難であり、また、さまざまな衣服やポーズに対応するのに十分な柔軟性を維持する必要もある。
我々のキーとなる観察は、標準化された人間のメッシュ(SMPLなど)の頂点は、ガウス人に適切な空間密度と近似的な初期位置を与えることができるということである。
これらの位置に対する比較的小さな調整と他の3DGS属性とSMPLパラメータを共同で予測するために、トランスフォーマーモデルを訓練することができる。
この組み合わせ(多視点監督のみを用いる)は,高額な拡散モデルや3Dポイントの監督を伴わない単一画像から,ほぼリアルタイムに3次元人間のモデル推定を実現できることを実証的に示す。
さらに重要なことは、衣服やその他の幾何学的バリエーションを考慮した3次元ポーズ推定を洗練するための効果的な補助的目的である。
コードはhttps://github.com/prosperolo/GSTで公開されている。
関連論文リスト
- SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion [50.02316409061741]
HuGDiffusionは、シングルビュー入力画像から人間の文字の新しいビュー合成(NVS)を実現するための学習パイプラインである。
本研究では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。
我々のHuGDiffusionは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-25T01:00:33Z) - iHuman: Instant Animatable Digital Humans From Monocular Videos [16.98924995658091]
モノクロビデオからアニマタブルな3Dデジタル人間を作るための,迅速かつシンプルで効果的な方法を提案する。
この研究は、人間の身体の正確な3Dメッシュ型モデリングの必要性を達成し、説明します。
我々の手法は(訓練時間の観点から)最も近い競合相手よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-07-15T18:51:51Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GauHuman: Articulated Gaussian Splatting from Monocular Human Videos [58.553979884950834]
GauHumanは、高速トレーニング(12分)とリアルタイムレンダリング(最大189FPS)の両方のためのガウススプラッティングを備えた3次元人体モデルである。
ガウフマンはカノニカル空間でガウススプラッティングを符号化し、3次元ガウスを線形ブレンドスキンニング(LBS)で正標準空間からポーズ空間に変換する
ZJU_MocapとMonoCapデータセットの実験は、GauHumanが高速なトレーニングとリアルタイムレンダリング速度によって、最先端のパフォーマンスを定量的に質的に達成していることを示している。
論文 参考訳(メタデータ) (2023-12-05T18:59:14Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions [37.50707388577952]
本稿では,高忠実度自由視点人間の動きをリアルタイムにレンダリングするための,アニマタブルな3次元ガウスモデルを提案する。
既存のNeRFベースの手法と比較して、このモデルはビデオフレーム間のジッタリングの問題なく、高周波の詳細で優れた能力を持っている。
論文 参考訳(メタデータ) (2023-11-22T14:00:23Z) - SplatArmor: Articulated Gaussian splatting for animatable humans from
monocular RGB videos [15.74530749823217]
SplatArmorは, 3次元ガウスモデルを用いたパラメータ化ボディモデルの装甲により, 詳細かつアニマタブルな人体モデルを復元する新しい手法である。
我々のアプローチは、人間を標準空間内の3次元ガウスの集合として表現し、その記述は、下層のSMPL幾何学のスキン化を拡張することによって定義される。
ZJU MoCap と People Snapshot のデータセットに魅力的な結果が得られた。
論文 参考訳(メタデータ) (2023-11-17T18:47:07Z) - Drivable 3D Gaussian Avatars [26.346626608626057]
現在の乾燥可能なアバターは、トレーニング中に正確な3Dの登録が必要か、テスト中に高密度の入力画像が必要か、両方だ。
この研究は、最近発表された3D Gaussian Splatting(3DGS)技術を使って、リアルな人間をリアルタイムでフレームレートでレンダリングする。
サイズが小さくなると、これらの変形を関節角とキーポイントで駆動し、通信用途に適している。
論文 参考訳(メタデータ) (2023-11-14T22:54:29Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body
Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。
既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文 参考訳(メタデータ) (2021-10-28T16:24:55Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。