Fugu-MT 論文翻訳(概要): From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

論文の概要: From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

arxiv url: http://arxiv.org/abs/2602.06122v1
Date: Thu, 05 Feb 2026 19:00:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.062333
Title: From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors
Title（参考訳）: BlurryからBlievableへ:低品質なトーキングヘッドを3D生成プライオリティで強化する
Authors: Ding-Jiun Huang, Yuanhao Wang, Shao-Ji Yuan, Albert Mosella-Montoro, Francisco Vicente Carrasco, Cheng Zhang, Fernando De la Torre,
Abstract要約: 低解像度でアニマタブルな3Dヘッドアバターを実現するためのフレームワークであるSuperHeadを紹介する。 SuperHeadは高品質な幾何学とテクスチャを合成し、3Dと時間的整合性を確保している。実験により、SuperHeadはダイナミックモーションの下で、きめ細かい顔の詳細を持つアバターを生成することが示された。
参考スコア（独自算出の注目度）: 49.37666175170832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Creating high-fidelity, animatable 3D talking heads is crucial for immersive applications, yet often hindered by the prevalence of low-quality image or video sources, which yield poor 3D reconstructions. In this paper, we introduce SuperHead, a novel framework for enhancing low-resolution, animatable 3D head avatars. The core challenge lies in synthesizing high-quality geometry and textures, while ensuring both 3D and temporal consistency during animation and preserving subject identity. Despite recent progress in image, video and 3D-based super-resolution (SR), existing SR techniques are ill-equipped to handle dynamic 3D inputs. To address this, SuperHead leverages the rich priors from pre-trained 3D generative models via a novel dynamics-aware 3D inversion scheme. This process optimizes the latent representation of the generative model to produce a super-resolved 3D Gaussian Splatting (3DGS) head model, which is subsequently rigged to an underlying parametric head model (e.g., FLAME) for animation. The inversion is jointly supervised using a sparse collection of upscaled 2D face renderings and corresponding depth maps, captured from diverse facial expressions and camera viewpoints, to ensure realism under dynamic facial motions. Experiments demonstrate that SuperHead generates avatars with fine-grained facial details under dynamic motions, significantly outperforming baseline methods in visual quality.
Abstract（参考訳）: 高精細度でアニマタブルな3D通話ヘッドは没入型アプリケーションには不可欠だが、低画質の画像やビデオソースの出現によって、低品質な3D再構成がしばしば妨げられる。本稿では,低解像度でアニマタブルな3Dヘッドアバターを実現するための新しいフレームワークであるSuperHeadを紹介する。中心となる課題は、高品質な幾何学とテクスチャを合成することであり、アニメーション中の3Dおよび時間的一貫性と被写体識別の保存を保証することである。画像、ビデオ、そして3Dベースの超解像(SR)は近年進歩しているが、既存のSR技術は動的3D入力を扱うには不十分である。これを解決するために、SuperHeadは、新しいダイナミックス対応の3Dインバージョンスキームを通じて、事前訓練された3D生成モデルの豊富な事前情報を活用する。このプロセスは、生成モデルの潜在表現を最適化し、超解像された3Dガウススプラッティング(3DGS)ヘッドモデルを生成し、アニメーションの基盤となるパラメトリックヘッドモデル(eg, FLAME)に結び付ける。インバージョンは、様々な顔の表情やカメラの視点から捉えた、高解像度の2次元顔レンダリングと対応する深度マップのスパースコレクションを使用して、共同で監視され、動的顔の動き下でのリアリズムが保証される。実験により、SuperHeadはダイナミックモーションの下で細かな顔の詳細を持つアバターを生成し、視覚的品質においてベースライン法よりも著しく優れていることが示された。

関連論文リスト

Generalizable and Animatable 3D Full-Head Gaussian Avatar from a Single Image [9.505520774467263]
単一の画像から3Dアニマタブルな頭部アバターを構築することは重要な問題ですが、難しい問題です。既存の方法は通常、大きなカメラポーズのバリエーションの下で崩壊し、3Dアバターのリアリズムを損なう。本研究では,1回のフィードフォワードパスで1発の3Dフルヘッドアニマタブルアバター再構成を実現するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2026-01-19T06:56:58Z)
TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling [52.87836237427514]
フォトリアルアバターは、テレプレゼンス、拡張現実、エンターテイメントにおける新興アプリケーションにおいて重要な要素であると見なされている。本稿では,最先端の3Dヘッドアバターモデルを提案する。
論文参考訳（メタデータ） (2025-05-08T22:10:27Z)
Generating Editable Head Avatars with 3D Gaussian GANs [57.51487984425395]
従来の3D-Aware Generative Adversarial Network (GAN) は、フォトリアリスティックでビューに一貫性のある3Dヘッド合成を実現する。本稿では,3次元ガウススプラッティング(3DGS)を明示的な3次元表現として取り入れることで,3次元ヘッドアバターの編集性とアニメーション制御を向上する手法を提案する。提案手法は,最先端の制御性を備えた高品質な3D認識合成を実現する。
論文参考訳（メタデータ） (2024-12-26T10:10:03Z)
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。 Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文参考訳（メタデータ） (2024-09-11T17:58:57Z)
Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文参考訳（メタデータ） (2024-01-16T17:04:30Z)
Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-10T19:15:32Z)
PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360$^{\circ}$ [17.355141949293852]
3次元頭部合成のための既存の3次元生成対向ネットワーク(GAN)は、正面近傍のビューに限られるか、大きなビュー角で3次元の一貫性を維持するのが困難である。パノヘッド(PanoHead)は、360ドル(約3万3000円)で高画質のフルヘッド画像合成を可能にする最初の3D認識生成モデルである。
論文参考訳（メタデータ） (2023-03-23T06:54:34Z)
Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T06:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。