論文の概要: GASPACHO: Gaussian Splatting for Controllable Humans and Objects
- arxiv url: http://arxiv.org/abs/2503.09342v1
- Date: Wed, 12 Mar 2025 12:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:10.356250
- Title: GASPACHO: Gaussian Splatting for Controllable Humans and Objects
- Title(参考訳): GASPACHO: 制御可能な人間と物体のためのガウススプレイティング
- Authors: Aymen Mir, Arthur Moreau, Helisa Dhamo, Zhensong Zhang, Eduardo Pérez-Pellitero,
- Abstract要約: 本稿では,人間と物体の相互作用の制御可能なレンダリングを生成する手法を提案する。
ヒトと物体の相互作用の多視点RGB画像が与えられた場合、本手法は人間と物体のアニマタブルテンプレートをガウスの別集合として再構成する。
- 参考スコア(独自算出の注目度): 10.340305052839856
- License:
- Abstract: We present GASPACHO: a method for generating photorealistic controllable renderings of human-object interactions. Given a set of multi-view RGB images of human-object interactions, our method reconstructs animatable templates of the human and object as separate sets of Gaussians simultaneously. Different from existing work, which focuses on human reconstruction and ignores objects as background, our method explicitly reconstructs both humans and objects, thereby allowing for controllable renderings of novel human object interactions in different poses from novel-camera viewpoints. During reconstruction, we constrain the Gaussians that generate rendered images to be a linear function of a set of canonical Gaussians. By simply changing the parameters of the linear deformation functions after training, our method can generate renderings of novel human-object interaction in novel poses from novel camera viewpoints. We learn the 3D Gaussian properties of the canonical Gaussians on the underlying 2D manifold of the canonical human and object templates. This in turns requires a canonical object template with a fixed UV unwrapping. To define such an object template, we use a feature based representation to track the object across the multi-view sequence. We further propose an occlusion aware photometric loss that allows for reconstructions under significant occlusions. Several experiments on two human-object datasets - BEHAVE and DNA-Rendering - demonstrate that our method allows for high-quality reconstruction of human and object templates under significant occlusion and the synthesis of controllable renderings of novel human-object interactions in novel human poses from novel camera views.
- Abstract(参考訳): 本稿では,人間と物体の相互作用を写実的に制御可能なレンダリングを生成するGASPACHOを提案する。
ヒトと物体の相互作用の多視点RGB画像の集合を与えられた場合、本手法は、人間と物体のアニマタブルテンプレートをガウスの別個の集合として同時に再構成する。
対象を背景として再現・無視する既存の作業とは違い,本手法は人間と物体の両方を明示的に再構成し,新規なカメラ視点から異なるポーズにおける新規な物体相互作用の制御可能なレンダリングを可能にする。
再構成の際には、描画された画像を生成するガウス人は、正準ガウスの集合の線型関数となるよう制約する。
トレーニング後の線形変形関数のパラメータを単純に変更することで、新しいカメラ視点から、新しいポーズにおける人間と物体の相互作用のレンダリングを生成することができる。
正準人および対象テンプレートの基礎となる2次元多様体上で、正準ガウス多様体の3次元ガウス的性質を学習する。
これにより、固定されたUVアンラッピングを備えた標準オブジェクトテンプレートが必要になる。
このようなオブジェクトテンプレートを定義するために、マルチビューシーケンスでオブジェクトを追跡するために特徴ベースの表現を使用します。
また,重要な閉塞下での再建を可能にする光線量損失を意識したオクルージョンを新たに提案する。
BEHAVE と DNA-Rendering という2つのオブジェクト・データセットに関するいくつかの実験により,本手法が人間とオブジェクトのテンプレートを高い閉塞下で高画質に再構築し,新規なカメラビューから新規なオブジェクト・インタラクションの制御可能なレンダリングを合成できることが実証された。
関連論文リスト
- WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - Human Pose Manipulation and Novel View Synthesis using Differentiable
Rendering [46.04980667824064]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2021-11-24T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。