論文の概要: Tri$^{2}$-plane: Thinking Head Avatar via Feature Pyramid
- arxiv url: http://arxiv.org/abs/2401.09386v2
- Date: Tue, 9 Jul 2024 03:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:01:01.021292
- Title: Tri$^{2}$-plane: Thinking Head Avatar via Feature Pyramid
- Title(参考訳): Tri$^{2}$-plane:Feature Pyramidでヘッドアバターを思い浮かべる
- Authors: Luchuan Song, Pinxin Liu, Lele Chen, Guojun Yin, Chenliang Xu,
- Abstract要約: 本稿では,モノクラーフォトリアリスティックな頭部アバター再構成のための新しいアプローチTri$2$-planeを提案する。
提案されたTri$2$-planeは、細部の改善のために特徴ピラミッドと3つの上下方向接続の原理を利用している。
顔の詳細を複数のスケールで分析してレンダリングし、顔全体から特定の地域へ移行し、さらに洗練されたサブリージョンへと移行する。
- 参考スコア(独自算出の注目度): 35.716488531048846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed considerable achievements in facial avatar reconstruction with neural volume rendering. Despite notable advancements, the reconstruction of complex and dynamic head movements from monocular videos still suffers from capturing and restoring fine-grained details. In this work, we propose a novel approach, named Tri$^2$-plane, for monocular photo-realistic volumetric head avatar reconstructions. Distinct from the existing works that rely on a single tri-plane deformation field for dynamic facial modeling, the proposed Tri$^2$-plane leverages the principle of feature pyramids and three top-to-down lateral connections tri-planes for details improvement. It samples and renders facial details at multiple scales, transitioning from the entire face to specific local regions and then to even more refined sub-regions. Moreover, we incorporate a camera-based geometry-aware sliding window method as an augmentation in training, which improves the robustness beyond the canonical space, with a particular improvement in cross-identity generation capabilities. Experimental outcomes indicate that the Tri$^2$-plane not only surpasses existing methodologies but also achieves superior performance across quantitative and qualitative assessments. The project website is: \url{https://songluchuan.github.io/Tri2Plane.github.io/}.
- Abstract(参考訳): 近年は、神経ボリュームレンダリングによる顔アバターの再構築でかなりの成果を挙げている。
顕著な進歩にもかかわらず、単眼ビデオからの複雑な頭部運動とダイナミックな頭部運動の再構築は、細かな細部を捉え、復元することに苦しむ。
本研究では,モノクラーフォトリアリスティックな頭部アバター再構成のための新しいアプローチTri$^2$-planeを提案する。
動的顔モデリングのための1つの三面体変形場に依存する既存の研究とは違い、提案されたTri$^2$-planeは、特徴ピラミッドと3つの上下方向接続三面体の原理を利用して細部の改善を行う。
顔の詳細を複数のスケールで分析してレンダリングし、顔全体から特定の地域へ移行し、さらに洗練されたサブリージョンへと移行する。
さらに,カメラをベースとした幾何対応のスライドウインドウをトレーニングの強化として組み込むことで,標準空間を超えた堅牢性を向上し,特にクロスアイデンティティ生成能力の向上を図っている。
実験結果から、Tri$^2$-planeは既存の方法論を超越するだけでなく、定量的および定性的な評価よりも優れた性能が得られることが示唆された。
プロジェクトのWebサイトは: \url{https://songluchuan.github.io/Tri2Plane.github.io/}。
関連論文リスト
- MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - SphereHead: Stable 3D Full-head Synthesis with Spherical Tri-plane Representation [16.991139234072225]
PanoHeadは、正面と後方の両方のビューの画像をフルヘッド合成するために、大規模なデータセットを使用することの可能性を証明している。
本研究では,人間の頭部の幾何学的特徴に適合する球面座標系における新しい三面体表現であるSphereHeadを提案する。
論文 参考訳(メタデータ) (2024-04-08T16:58:31Z) - GPAvatar: Generalizable and Precise Head Avatar from Image(s) [71.555405205039]
GPAvatarは、1つの前方パスで1つまたは複数の画像から3Dヘッドアバターを再構築するフレームワークである。
提案手法は,忠実なアイデンティティ再構築,正確な表現制御,多視点一貫性を実現する。
論文 参考訳(メタデータ) (2024-01-18T18:56:34Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - HiFace: High-Fidelity 3D Face Reconstruction by Learning Static and
Dynamic Details [66.74088288846491]
HiFaceは、動的かつ静的なディテールで高忠実な3D顔再構成を目指している。
我々は、いくつかの損失関数を利用して、粗い形状と、合成データセットと実世界のデータセットの両方で詳細を共同で学習する。
論文 参考訳(メタデータ) (2023-03-20T16:07:02Z) - A Hierarchical Representation Network for Accurate and Detailed Face
Reconstruction from In-The-Wild Images [15.40230841242637]
本稿では,1つの画像から正確な顔再構成を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。
我々のフレームワークは、異なるビューの詳細な一貫性を考慮し、マルチビューに拡張することができる。
本手法は,再現精度と視覚効果の両方において既存手法より優れる。
論文 参考訳(メタデータ) (2023-02-28T09:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。