論文の概要: HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics
- arxiv url: http://arxiv.org/abs/2508.09858v1
- Date: Wed, 13 Aug 2025 14:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.936103
- Title: HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics
- Title(参考訳): ヒューマンジェネシス:人工人体力学のためのエージェントベースの幾何学的・生成的モデリング
- Authors: Weiqi Li, Zehao Zhang, Liang Lin, Guangrun Wang,
- Abstract要約: 4つの協調エージェントを通して幾何学的および生成的モデリングを統合するフレームワークである textbfHumanGenesis を提示する。
HumanGenesisは、テキスト誘導合成、ビデオ再現、新規目的一般化といったタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 60.737929335600015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textbf{Synthetic human dynamics} aims to generate photorealistic videos of human subjects performing expressive, intention-driven motions. However, current approaches face two core challenges: (1) \emph{geometric inconsistency} and \emph{coarse reconstruction}, due to limited 3D modeling and detail preservation; and (2) \emph{motion generalization limitations} and \emph{scene inharmonization}, stemming from weak generative capabilities. To address these, we present \textbf{HumanGenesis}, a framework that integrates geometric and generative modeling through four collaborative agents: (1) \textbf{Reconstructor} builds 3D-consistent human-scene representations from monocular video using 3D Gaussian Splatting and deformation decomposition. (2) \textbf{Critique Agent} enhances reconstruction fidelity by identifying and refining poor regions via multi-round MLLM-based reflection. (3) \textbf{Pose Guider} enables motion generalization by generating expressive pose sequences using time-aware parametric encoders. (4) \textbf{Video Harmonizer} synthesizes photorealistic, coherent video via a hybrid rendering pipeline with diffusion, refining the Reconstructor through a Back-to-4D feedback loop. HumanGenesis achieves state-of-the-art performance on tasks including text-guided synthesis, video reenactment, and novel-pose generalization, significantly improving expressiveness, geometric fidelity, and scene integration.
- Abstract(参考訳): \textbf{Synthetic human dynamics} は、表現的で意図的な動作を行う被験者の写実的なビデオを生成することを目的としている。
しかしながら、現在のアプローチでは、(1)3次元モデリングと詳細保存の制限により、(1)emph{geometric inconsistency} と \emph{coarse reconstruction} の2つのコア課題に直面している。
これらの課題を解決するために,(1) \textbf{HumanGenesis} は幾何学的および生成的モデリングを4つの協調エージェントを通して統合するフレームワークである。
2) <textbf{Critique Agent} は,マルチラウンドMLLMによるリフレクションにより,貧しい領域を同定し,精製することにより,再構成の忠実度を高める。
(3) \textbf{Pose Guider} は、時間対応パラメトリックエンコーダを用いて表現的なポーズ列を生成することで、動きの一般化を可能にする。
(4) \textbf{Video Harmonizer}は、拡散を伴うハイブリッドレンダリングパイプラインを通じて光リアルでコヒーレントなビデオを合成し、Back-to-4Dフィードバックループを通じてReconstructorを精製する。
ヒューマンジェネシスは、テキスト誘導合成、ビデオ再現、新規目的一般化などのタスクにおいて最先端のパフォーマンスを達成し、表現性、幾何学的忠実性、シーン統合を著しく改善する。
関連論文リスト
- Generative 4D Scene Gaussian Splatting with Object View-Synthesis Priors [22.797709893040906]
GenMOJOは、レンダリングベースで変形可能な3Dガウス最適化と生成前のビュー合成を統合する新しいアプローチである。
シーンを個々のオブジェクトに分解し、オブジェクトごとに変形可能なガウスの微分可能な集合を最適化する。
得られたモデルは、空間と時間の4Dオブジェクト再構成を生成し、モノラル入力から正確な2Dおよび3Dポイントトラックを生成する。
論文 参考訳(メタデータ) (2025-06-15T04:40:20Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration [29.03216532351979]
textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。
このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。
また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
論文 参考訳(メタデータ) (2025-04-04T15:35:14Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文 参考訳(メタデータ) (2022-02-11T13:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。