論文の概要: Learning Efficient and Generalizable Human Representation with Human Gaussian Model
- arxiv url: http://arxiv.org/abs/2507.18758v1
- Date: Thu, 24 Jul 2025 19:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.73205
- Title: Learning Efficient and Generalizable Human Representation with Human Gaussian Model
- Title(参考訳): ガウスモデルを用いた効率的で一般化可能な人間表現の学習
- Authors: Yifan Liu, Shengjun Zhang, Chensheng Dai, Yang Chen, Hao Liu, Chen Li, Yueqi Duan,
- Abstract要約: 本稿では,予測されたガウスと人間のSMPLメッシュの接続をモデル化するために,Human Gaussian Graphを提案する。
我々は,全てのフレームからの情報を有効活用して,人間表現を復元できることを実証した。
新しいビュー合成と新しいポーズアニメーションの実験結果は,本手法の効率性と一般化を実証している。
- 参考スコア(独自算出の注目度): 25.864364910265127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling animatable human avatars from videos is a long-standing and challenging problem. While conventional methods require per-instance optimization, recent feed-forward methods have been proposed to generate 3D Gaussians with a learnable network. However, these methods predict Gaussians for each frame independently, without fully capturing the relations of Gaussians from different timestamps. To address this, we propose Human Gaussian Graph to model the connection between predicted Gaussians and human SMPL mesh, so that we can leverage information from all frames to recover an animatable human representation. Specifically, the Human Gaussian Graph contains dual layers where Gaussians are the first layer nodes and mesh vertices serve as the second layer nodes. Based on this structure, we further propose the intra-node operation to aggregate various Gaussians connected to one mesh vertex, and inter-node operation to support message passing among mesh node neighbors. Experimental results on novel view synthesis and novel pose animation demonstrate the efficiency and generalization of our method.
- Abstract(参考訳): ビデオからアニメーション可能な人間のアバターをモデル化することは、長年にわたる挑戦的な問題だ。
従来の手法ではインスタンスごとの最適化が必要であったが、最近のフィードフォワード法では学習可能なネットワークで3Dガウスを生成する方法が提案されている。
しかし、これらの手法は、異なるタイムスタンプからガウスの関係を完全に把握することなく、それぞれのフレームに対してガウスを独立に予測する。
そこで我々は,予測されたガウスと人間のSMPLメッシュの接続をモデル化し,全てのフレームからの情報を有効活用し,アニマタブルな人間の表現を復元するために,Human Gaussian Graphを提案する。
具体的には、Human Gaussian Graphには、Gaussianが第1層ノード、メッシュ頂点が第2層ノードとして機能するデュアルレイヤが含まれている。
この構造に基づいて,1つのメッシュ頂点に接続された様々なガウスを集約するノード内演算と,メッシュノード近傍のメッセージパッシングをサポートするノード間演算を提案する。
新しいビュー合成と新しいポーズアニメーションの実験結果は,本手法の効率性と一般化を実証している。
関連論文リスト
- Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images [12.274418254425019]
3D Gaussian Splatting (3DGS) は印象的なビュー合成性能を示した。
本稿ではガウスグラフネットワーク(GGN)を提案し,効率よく一般化可能なガウスグラフを生成する。
我々は大規模なRealEstate10KとACIDデータセットの実験を行い、本手法の効率性と一般化を実証した。
論文 参考訳(メタデータ) (2025-03-20T16:56:13Z) - RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images [39.03889696169877]
RoGSplatは、スパースマルチビュー画像から見えない人間の高忠実な新しいビューを合成するための新しいアプローチである。
提案手法は,新しいビュー合成とクロスデータセットの一般化において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T12:18:34Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - GStex: Per-Primitive Texturing of 2D Gaussian Splatting for Decoupled Appearance and Geometry Modeling [11.91812502521729]
ガウススプラッティングは、ビュー合成とシーン再構成に優れた性能を示した。
各ガウス原始体は外観と幾何学の両方を符号化しているので、外見モデリングには多数のガウス原始体が必要である。
我々は,1つのガウス語でさえ外観の詳細を捉えられるように,パープリミティブな表現を採用することを提案する。
論文 参考訳(メタデータ) (2024-09-19T17:58:44Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - Mesh Graphormer [17.75480888764098]
グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。
論文 参考訳(メタデータ) (2021-04-01T06:16:36Z) - CatGCN: Graph Convolutional Networks with Categorical Node Features [99.555850712725]
CatGCNはグラフ学習に適したノード機能である。
エンドツーエンドでCatGCNを訓練し、半教師付きノード分類でそれを実証する。
論文 参考訳(メタデータ) (2020-09-11T09:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。