論文の概要: HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers
- arxiv url: http://arxiv.org/abs/2506.03118v1
- Date: Tue, 03 Jun 2025 17:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.97288
- Title: HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers
- Title(参考訳): HumanRAM:トランスフォーマーを用いたフィードフォワード人間再構成とアニメーションモデル
- Authors: Zhiyuan Yu, Zhe Li, Hujun Bao, Can Yang, Xiaowei Zhou,
- Abstract要約: HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
- 参考スコア(独自算出の注目度): 60.86393841247567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human reconstruction and animation are long-standing topics in computer graphics and vision. However, existing methods typically rely on sophisticated dense-view capture and/or time-consuming per-subject optimization procedures. To address these limitations, we propose HumanRAM, a novel feed-forward approach for generalizable human reconstruction and animation from monocular or sparse human images. Our approach integrates human reconstruction and animation into a unified framework by introducing explicit pose conditions, parameterized by a shared SMPL-X neural texture, into transformer-based large reconstruction models (LRM). Given monocular or sparse input images with associated camera parameters and SMPL-X poses, our model employs scalable transformers and a DPT-based decoder to synthesize realistic human renderings under novel viewpoints and novel poses. By leveraging the explicit pose conditions, our model simultaneously enables high-quality human reconstruction and high-fidelity pose-controlled animation. Experiments show that HumanRAM significantly surpasses previous methods in terms of reconstruction accuracy, animation fidelity, and generalization performance on real-world datasets. Video results are available at https://zju3dv.github.io/humanram/.
- Abstract(参考訳): 3Dの人間の再構築とアニメーションは、コンピュータグラフィックスとビジョンにおける長年のトピックである。
しかし、既存の手法は一般的に、高度に密集したビューキャプチャや、オブジェクトごとの時間を要する最適化手順に依存している。
これらの制約に対処するために,モノクラー画像やスパース画像から人間の再構築とアニメーションを一般化するための新しいフィードフォワードアプローチであるHumanRAMを提案する。
提案手法は,共用SMPL-Xニューラルテクスチャによってパラメータ化された明示的なポーズ条件をトランスフォーマーベース大規模再構成モデル(LRM)に導入することにより,人間の再構築とアニメーションを統一的なフレームワークに統合する。
カメラパラメータとSMPL-Xのポーズを関連付けたモノクルまたはスパースな入力画像が与えられた場合、我々のモデルはスケーラブルなトランスフォーマーとDPTベースのデコーダを用いて、新しい視点と新しいポーズの下でリアルな人間のレンダリングを合成する。
明示的なポーズ条件を活用することで、高品質な人間の再構築と高忠実なポーズ制御アニメーションを同時に実現する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
ビデオの結果はhttps://zju3dv.github.io/ Humanram/.comで公開されている。
関連論文リスト
- ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos [18.73641648585445]
最近のニューラルレンダリングの進歩により、全体的人間シーンの再構築が可能になったが、事前に校正されたカメラと人間のポーズが必要である。
本稿では,オンライン形式でカメラトラッキング,ポーズ推定,ヒューマンシーン再構築を同時に行う新しい統合フレームワークを提案する。
具体的には,人間の変形モジュールを設計し,細部を再構築し,分布外への一般化性を高める。
論文 参考訳(メタデータ) (2025-04-17T17:59:02Z) - FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.86864398919467]
数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文 参考訳(メタデータ) (2025-03-24T23:20:47Z) - LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [21.99354901986186]
フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。
本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。
我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文 参考訳(メタデータ) (2025-03-13T17:59:21Z) - HumanGif: Single-View Human Diffusion with Generative Prior [25.516544735593087]
本稿では, 先行生成に基づく単一ビューヒト拡散モデルであるHumanGifを提案する。
具体的には、単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。
我々は,HumanGifが最高の知覚性能を達成し,新しい視点とポーズ合成の一般化性が向上したことを示す。
論文 参考訳(メタデータ) (2025-02-17T17:55:27Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction [26.82525451095629]
本稿では,不整合画像の3次元再構成のためのロバストな手法を提案し,推論中のリアルタイムレンダリングを実現する。
再建問題を4次元課題として再検討し, 4次元ガウススプラッティングを用いた効率的な3次元モデリング手法を提案する。
実験により,本手法は3次元人体アバターの光実写・リアルタイムアニメーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:55:39Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。