論文の概要: InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars
- arxiv url: http://arxiv.org/abs/2312.02222v3
- Date: Mon, 27 May 2024 02:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-29 08:25:17.018001
- Title: InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars
- Title(参考訳): InvertAvatar: 一般化ヘッドアバターに対するインクリメンタルGANインバージョン
- Authors: Xiaochen Zhao, Jingxiang Sun, Lizhen Wang, Jinli Suo, Yebin Liu,
- Abstract要約: 本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
- 参考スコア(独自算出の注目度): 40.10906393484584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While high fidelity and efficiency are central to the creation of digital head avatars, recent methods relying on 2D or 3D generative models often experience limitations such as shape distortion, expression inaccuracy, and identity flickering. Additionally, existing one-shot inversion techniques fail to fully leverage multiple input images for detailed feature extraction. We propose a novel framework, \textbf{Incremental 3D GAN Inversion}, that enhances avatar reconstruction performance using an algorithm designed to increase the fidelity from multiple frames, resulting in improved reconstruction quality proportional to frame count. Our method introduces a unique animatable 3D GAN prior with two crucial modifications for enhanced expression controllability alongside an innovative neural texture encoder that categorizes texture feature spaces based on UV parameterization. Differentiating from traditional techniques, our architecture emphasizes pixel-aligned image-to-image translation, mitigating the need to learn correspondences between observation and canonical spaces. Furthermore, we incorporate ConvGRU-based recurrent networks for temporal data aggregation from multiple frames, boosting geometry and texture detail reconstruction. The proposed paradigm demonstrates state-of-the-art performance on one-shot and few-shot avatar animation tasks. Code will be available at https://github.com/XChenZ/invertAvatar.
- Abstract(参考訳): 高忠実度と効率性はデジタルヘッドアバターの作成の中心であるが、近年の2次元または3次元生成モデルに依存する手法では、形状の歪み、表現の不正確さ、アイデンティティ・フリックリングといった制限を経験することが多い。
さらに、既存のワンショットインバージョン技術では、詳細な特徴抽出のために複数の入力画像を完全に活用できない。
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークである‘textbf{Incremental 3D GAN Inversion} を提案する。
本手法では,UVパラメータ化に基づくテクスチャ特徴空間を分類する革新的テクスチャエンコーダとともに,表現制御性向上のための2つの重要な修正を加えた,ユニークなアニマタブルな3D GANを導入する。
従来の手法と異なり,我々のアーキテクチャでは,画素対応画像-画像変換が重視され,観測空間と標準空間の対応を学習する必要性が軽減される。
さらに,複数のフレームからの時間的データアグリゲーションにConvGRUをベースとしたリカレントネットワークを導入し,形状やテクスチャディテールを再構築する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
コードはhttps://github.com/XChenZ/invertAvatar.comから入手できる。
関連論文リスト
- OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars [54.688420347927725]
OMEGA-Avatarは、単一の画像から一般化可能で360度完全でアニマブルな3Dガウスヘッドを同時に生成する最初のフレームワークである。
OMEGA-Avatarは最先端の性能を達成し,360度フルヘッド完全性において既存のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-12T08:16:38Z) - FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation [26.161556787983496]
OURSは、少数の入力画像から高品質なガウスヘッドアバターを生成するフィードフォワード方式である。
提案手法は,入力画像から画素ごとのガウス表現を直接学習する。
実験の結果,提案手法は,レンダリング品質と推論効率の両方において,既存の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-20T10:49:49Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - Dream3DAvatar: Text-Controlled 3D Avatar Reconstruction from a Single Image [14.987896655951774]
本研究では,3次元アバター生成のためのテキスト制御可能なフレームワークであるDream3DAvatarを提案する。
最初の段階では、軽量でアダプタに強化されたマルチビュー生成モデルを開発する。
顔のアイデンティティを維持するために,高解像度の顔特徴を生成プロセスに注入するID-Adapter-Gを組み込んだ。
第2段階では,マルチビュー機能融合モジュールを備えたフィードフォワードトランスモデルを設計する。
論文 参考訳(メタデータ) (2025-09-16T12:36:00Z) - MoGaFace: Momentum-Guided and Texture-Aware Gaussian Avatars for Consistent Facial Geometry [3.0373043721834163]
MoGaFaceは、顔の形状とテクスチャ特性を継続的に洗練する、3Dヘッドアバターモデリングフレームワークである。
MoGaFaceは高忠実な頭部アバター再構成を実現し、新規な合成品質を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-02T06:25:51Z) - SEGA: Drivable 3D Gaussian Head Avatar from a Single Image [15.117619290414064]
本稿では,3次元ドライビング可能なガウスヘッドアバターの新規な手法であるSEGAを提案する。
SEGAは、大規模な2Dデータセットから派生した先行データと、マルチビュー、マルチ圧縮、マルチIDデータから得られた3D先行データとをシームレスに結合する。
提案手法は, 一般化能力, アイデンティティ保存, 表現リアリズムにおいて, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-19T18:23:31Z) - GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - FlexiDreamer: Single Image-to-3D Generation with FlexiCubes [20.871847154995688]
FlexiDreamerは、マルチビュー生成イメージから高品質なメッシュを直接再構築する新しいフレームワークである。
提案手法では,1つの画像から3次元の下流タスクにおいて,約1分で高忠実度3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-04-01T08:20:18Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。