論文の概要: CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images
- arxiv url: http://arxiv.org/abs/2407.04345v1
- Date: Fri, 5 Jul 2024 08:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:09:46.657324
- Title: CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images
- Title(参考訳): CanonicalFusion: 複数の画像から再現可能な3Dアバターを生成する
- Authors: Jisu Shin, Junmyeong Lee, Seongmin Lee, Min-Gyu Park, Ju-Mi Kang, Ju Hong Yoon, Hae-Gon Jeon,
- Abstract要約: カノニカルフュージョン(CanonicalFusion)と呼ばれる複数の画像からアニマタブルなヒトアバターを再構成するための新しい枠組みを提案する。
まず,LBS(Linear Blend Skinning)重みマップと深度マップを共有エンコーダ・デュアルデコーダネットワークを用いて予測し,予測深度マップから3次元メッシュの直接正準化を可能にする。
また,複数画像から再構成した結果をマージするために,前方スキンベースの異なるレンダリング方式を導入する。
- 参考スコア(独自算出の注目度): 17.10258463020844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel framework for reconstructing animatable human avatars from multiple images, termed CanonicalFusion. Our central concept involves integrating individual reconstruction results into the canonical space. To be specific, we first predict Linear Blend Skinning (LBS) weight maps and depth maps using a shared-encoder-dual-decoder network, enabling direct canonicalization of the 3D mesh from the predicted depth maps. Here, instead of predicting high-dimensional skinning weights, we infer compressed skinning weights, i.e., 3-dimensional vector, with the aid of pre-trained MLP networks. We also introduce a forward skinning-based differentiable rendering scheme to merge the reconstructed results from multiple images. This scheme refines the initial mesh by reposing the canonical mesh via the forward skinning and by minimizing photometric and geometric errors between the rendered and the predicted results. Our optimization scheme considers the position and color of vertices as well as the joint angles for each image, thereby mitigating the negative effects of pose errors. We conduct extensive experiments to demonstrate the effectiveness of our method and compare our CanonicalFusion with state-of-the-art methods. Our source codes are available at https://github.com/jsshin98/CanonicalFusion.
- Abstract(参考訳): カノニカルフュージョン(CanonicalFusion)と呼ばれる複数の画像からアニマタブルなヒトアバターを再構成するための新しい枠組みを提案する。
我々の中心的な概念は、個々の再構成結果を標準空間に統合することである。
具体的には,まず線形ブレンドスキニング(LBS)重みマップと深度マップを共有エンコーダ・デュアルデコーダネットワークを用いて予測し,予測深度マップから3Dメッシュを直接正規化する。
ここでは、高次元スキンウェイトを予測する代わりに、プレトレーニングMLPネットワークの助けを借りて、圧縮スキンウェイト、すなわち3次元ベクターを推定する。
また、複数画像から再構成した結果をマージするために、前方スキンベースの微分可能レンダリング方式も導入する。
このスキームは、前方スキンニングによる標準メッシュの再現と、レンダリング結果と予測結果との間の測光的および幾何学的誤差を最小化することにより、初期メッシュを洗練する。
最適化手法では,頂点の位置と色,および各画像の関節角を考慮し,ポーズエラーの負の効果を緩和する。
提案手法の有効性を実証するために広範囲な実験を行い,CanonicalFusionと最先端の手法との比較を行った。
ソースコードはhttps://github.com/jsshin98/CanonicalFusion.comで公開されています。
関連論文リスト
- Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Pixel2ISDF: Implicit Signed Distance Fields based Human Body Model from
Multi-view and Multi-pose Images [67.45882013828256]
我々は,複数の視点と人間のポーズを入力として,標準空間における衣服付き人間の再構築に焦点をあてる。
複数の入力画像を活用することで、ポーズメッシュ上の潜時符号を学習し、その後、標準空間内のメッシュに潜時符号を割り当てる。
本研究は,WCPA MVP-Human Body Challengeにおいて,人体形状を復元する作業を行い,第3の成果を得た。
論文 参考訳(メタデータ) (2022-12-06T05:30:49Z) - KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints [28.234772596912165]
スパースビューから高忠実度体積アバターをモデル化するための高効率なアプローチを提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
実験の結果,先行作業における誤りの大部分は,空間符号化の不適切な選択に起因することがわかった。
論文 参考訳(メタデータ) (2022-05-10T15:57:03Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。