論文の概要: GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
- arxiv url: http://arxiv.org/abs/2409.04196v1
- Date: Fri, 6 Sep 2024 11:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:55:18.184134
- Title: GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
- Title(参考訳): GST:ガウス散乱変換器を用いた1枚の画像からの精密な3次元人体
- Authors: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht,
- Abstract要約: 我々は,ガウスの混合体からなるシーン表現である3Dガウススプレイティング(3DGS)をベースとした。
この組み合わせは、テスト時間最適化なしで単一の画像から3次元人間のモデルを高速に推定できることを示す。
また,衣服などのバリエーションを考慮に入れた人体モデルにより,3次元ポーズ推定の改善が期待できることを示す。
- 参考スコア(独自算出の注目度): 23.96688843662126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing realistic 3D human models from monocular images has significant applications in creative industries, human-computer interfaces, and healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene representation composed of a mixture of Gaussians. Predicting such mixtures for a human from a single input image is challenging, as it is a non-uniform density (with a many-to-one relationship with input pixels) with strict physical constraints. At the same time, it needs to be flexible to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate density and approximate initial position for Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other Gaussians' attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve fast inference of 3D human models from a single image without test-time optimization, expensive diffusion models, or 3D points supervision. We also show that it can improve 3D pose estimation by better fitting human models that account for clothes and other variations. The code is available on the project website https://abdullahamdi.com/gst/ .
- Abstract(参考訳): モノクロ画像からリアルな3Dモデルを構築することは、クリエイティブ産業、ヒューマン・コンピュータ・インタフェース、ヘルスケアに重要な応用をもたらす。
我々は,ガウスの混合体からなるシーン表現である3Dガウススプレイティング(3DGS)をベースとした。
単一の入力画像からそのような混合物を予測することは、(入力画素と多対一の関係を持つ)一様ではない密度であり、厳密な物理的制約があるため困難である。
同時に、さまざまな服やポーズに合うように柔軟でなければならない。
我々のキーとなる観察は、標準化された人間のメッシュ(SMPLなど)の頂点は、ガウス人に適切な密度と近似的な初期位置を与えることができるということである。
次に、変換器モデルをトレーニングして、これらの位置に対する比較的小さな調整を、他のガウスの属性やSMPLパラメータと同様に、共同で予測することができる。
この組み合わせ(多視点監視のみを用いる)は、テスト時間最適化、高価な拡散モデル、あるいは3Dポイントの監督なしに、単一の画像から高速な3次元人間のモデル推定を実現できることを実証的に示す。
また,衣服などのバリエーションを考慮に入れた人体モデルにより,3次元ポーズ推定の改善が期待できることを示す。
コードはプロジェクトのWebサイト https://abdullahamdi.com/gst/ で公開されている。
関連論文リスト
- iHuman: Instant Animatable Digital Humans From Monocular Videos [16.98924995658091]
モノクロビデオからアニマタブルな3Dデジタル人間を作るための,迅速かつシンプルで効果的な方法を提案する。
この研究は、人間の身体の正確な3Dメッシュ型モデリングの必要性を達成し、説明します。
我々の手法は(訓練時間の観点から)最も近い競合相手よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-07-15T18:51:51Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GauHuman: Articulated Gaussian Splatting from Monocular Human Videos [58.553979884950834]
GauHumanは、高速トレーニング(12分)とリアルタイムレンダリング(最大189FPS)の両方のためのガウススプラッティングを備えた3次元人体モデルである。
ガウフマンはカノニカル空間でガウススプラッティングを符号化し、3次元ガウスを線形ブレンドスキンニング(LBS)で正標準空間からポーズ空間に変換する
ZJU_MocapとMonoCapデータセットの実験は、GauHumanが高速なトレーニングとリアルタイムレンダリング速度によって、最先端のパフォーマンスを定量的に質的に達成していることを示している。
論文 参考訳(メタデータ) (2023-12-05T18:59:14Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions [37.50707388577952]
本稿では,高忠実度自由視点人間の動きをリアルタイムにレンダリングするための,アニマタブルな3次元ガウスモデルを提案する。
既存のNeRFベースの手法と比較して、このモデルはビデオフレーム間のジッタリングの問題なく、高周波の詳細で優れた能力を持っている。
論文 参考訳(メタデータ) (2023-11-22T14:00:23Z) - SplatArmor: Articulated Gaussian splatting for animatable humans from
monocular RGB videos [15.74530749823217]
SplatArmorは, 3次元ガウスモデルを用いたパラメータ化ボディモデルの装甲により, 詳細かつアニマタブルな人体モデルを復元する新しい手法である。
我々のアプローチは、人間を標準空間内の3次元ガウスの集合として表現し、その記述は、下層のSMPL幾何学のスキン化を拡張することによって定義される。
ZJU MoCap と People Snapshot のデータセットに魅力的な結果が得られた。
論文 参考訳(メタデータ) (2023-11-17T18:47:07Z) - Drivable 3D Gaussian Avatars [26.346626608626057]
現在の乾燥可能なアバターは、トレーニング中に正確な3Dの登録が必要か、テスト中に高密度の入力画像が必要か、両方だ。
この研究は、最近発表された3D Gaussian Splatting(3DGS)技術を使って、リアルな人間をリアルタイムでフレームレートでレンダリングする。
サイズが小さくなると、これらの変形を関節角とキーポイントで駆動し、通信用途に適している。
論文 参考訳(メタデータ) (2023-11-14T22:54:29Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。