論文の概要: Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations
- arxiv url: http://arxiv.org/abs/2412.03011v1
- Date: Wed, 04 Dec 2024 04:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:45.836162
- Title: Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations
- Title(参考訳): シングルビューモデルによる人間の多視点合成:トランスファーボディと顔表現
- Authors: Yu Feng, Shunsi Zhang, Jian Shu, Hanfeng Zhao, Guoliang Pang, Chi Zhang, Hao Wang,
- Abstract要約: 人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 7.448124739584319
- License:
- Abstract: Generating multi-view human images from a single view is a complex and significant challenge. Although recent advancements in multi-view object generation have shown impressive results with diffusion models, novel view synthesis for humans remains constrained by the limited availability of 3D human datasets. Consequently, many existing models struggle to produce realistic human body shapes or capture fine-grained facial details accurately. To address these issues, we propose an innovative framework that leverages transferred body and facial representations for multi-view human synthesis. Specifically, we use a single-view model pretrained on a large-scale human dataset to develop a multi-view body representation, aiming to extend the 2D knowledge of the single-view model to a multi-view diffusion model. Additionally, to enhance the model's detail restoration capability, we integrate transferred multimodal facial features into our trained human diffusion model. Experimental evaluations on benchmark datasets demonstrate that our approach outperforms the current state-of-the-art methods, achieving superior performance in multi-view human synthesis.
- Abstract(参考訳): 単一のビューから複数ビューの人間のイメージを生成することは、複雑で重要な課題である。
近年の多視点オブジェクト生成の進歩は拡散モデルによる顕著な結果を示しているが、人間の新しいビュー合成は3次元データセットの可用性の制限によって制限されている。
その結果、既存の多くのモデルでは、現実的な人間の体の形を作り出したり、きめ細かい顔の細部を正確に捉えたりするのに苦労している。
これらの課題に対処するため,多視点人間の合成にトランスファーボディと顔表現を活用する革新的な枠組みを提案する。
具体的には、大規模な人体データセットに事前訓練されたシングルビューモデルを用いて、シングルビューモデルの2次元知識をマルチビュー拡散モデルに拡張することを目的として、マルチビューボディ表現を開発する。
さらに, モデルの詳細復元能力を高めるため, トレーニングした人体拡散モデルに移動した多モーダル顔の特徴を組み込んだ。
評価実験の結果,提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮することが示された。
関連論文リスト
- HumanGif: Single-View Human Diffusion with Generative Prior [25.516544735593087]
HumanGif/strong>は,2次元キャラクタアニメーションの成功に動機づけられた1視点のヒト拡散モデルである。
単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。
論文 参考訳(メタデータ) (2025-02-17T17:55:27Z) - PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文 参考訳(メタデータ) (2024-09-16T10:13:06Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。
我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - XAGen: 3D Expressive Human Avatars Generation [76.69560679209171]
XAGenは人体、顔、手を表現的に制御できる人間のアバターのための最初の3D生成モデルである。
身体, 顔, 手の合成を両立させる多部レンダリング手法を提案する。
実験によると、XAGenは現実主義、多様性、表現力のある制御能力の点で最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-22T18:30:42Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - Human Image Generation: A Comprehensive Survey [44.204029557298476]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴はモデルアーキテクチャの観点から要約される。
広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - HUMBI: A Large Multiview Dataset of Human Body Expressions and Benchmark
Challenge [33.26419876973344]
本稿では,人体表現を自然着色で表現するHUMBIという大規模マルチビューデータセットを提案する。
107個の同期HDカメラは、性別、民族、年齢、スタイルにまたがる772個の特徴のある被写体を撮影するために使用される。
3次元メッシュモデルを用いて高忠実度ボディ表現を再構成し、ビュー特有の外観を表現する。
論文 参考訳(メタデータ) (2021-09-30T23:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。