論文の概要: UIKA: Fast Universal Head Avatar from Pose-Free Images
- arxiv url: http://arxiv.org/abs/2601.07603v2
- Date: Fri, 16 Jan 2026 12:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.02536
- Title: UIKA: Fast Universal Head Avatar from Pose-Free Images
- Title(参考訳): UIKA: ポスフリー画像からの高速ユニバーサルヘッドアバター
- Authors: Zijian Wu, Boyao Zhou, Liangxiao Hu, Hongyu Liu, Yuan Sun, Xuan Wang, Xun Cao, Yujun Shen, Hao Zhu,
- Abstract要約: フィードフォワードでアニマタブルなガウスヘッドモデルであるウイカを任意の数の未入力から提示する。
従来のアバター法とは異なり、モデル表現、ネットワーク設計、データ準備のレンズを通してタスクを再考する。
本手法は,モノクロ・マルチビュー・セッティングにおいて既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 65.03770342532134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UIKA, a feed-forward animatable Gaussian head model from an arbitrary number of unposed inputs, including a single image, multi-view captures, and smartphone-captured videos. Unlike the traditional avatar method, which requires a studio-level multi-view capture system and reconstructs a human-specific model through a long-time optimization process, we rethink the task through the lenses of model representation, network design, and data preparation. First, we introduce a UV-guided avatar modeling strategy, in which each input image is associated with a pixel-wise facial correspondence estimation. Such correspondence estimation allows us to reproject each valid pixel color from screen space to UV space, which is independent of camera pose and character expression. Furthermore, we design learnable UV tokens on which the attention mechanism can be applied at both the screen and UV levels. The learned UV tokens can be decoded into canonical Gaussian attributes using aggregated UV information from all input views. To train our large avatar model, we additionally prepare a large-scale, identity-rich synthetic training dataset. Our method significantly outperforms existing approaches in both monocular and multi-view settings. See more details in our project page: https://zijian-wu.github.io/uika-page/
- Abstract(参考訳): フィードフォワードでアニマタブルなガウシアンヘッドモデルであるUIKAを,1つの画像,マルチビューキャプチャ,スマートフォンでキャプチャしたビデオなど,任意の数の未入力から提示する。
スタジオレベルのマルチビューキャプチャシステムを必要とし,長期間の最適化プロセスを通じて人間固有のモデルを再構築する従来のアバター手法とは異なり,我々はモデル表現,ネットワーク設計,データ準備のレンズを用いてタスクを再考する。
まず,UV誘導アバターモデリング手法を導入し,各入力画像と画素単位の顔の対応関係を推定する。
このような対応推定により、画面空間からUV空間へ、カメラポーズやキャラクタ表現とは無関係に、各有効画素色を再描画することができる。
さらに,スクリーンレベルと紫外線レベルの両方で注目機構を適用可能な学習可能なUVトークンを設計する。
学習されたUVトークンは、すべての入力ビューから集約されたUV情報を使用して標準ガウス属性に復号することができる。
大規模アバターモデルのトレーニングには,大規模でアイデンティティに富んだ合成トレーニングデータセットも用意する。
本手法は,モノクロ・マルチビュー・セッティングにおいて既存手法よりも優れていた。
詳細はプロジェクトのページを参照してください。
関連論文リスト
- FlexAvatar: Learning Complete 3D Head Avatars with Partial Supervision [54.69512425050288]
1枚の画像から高品質で完全な3Dヘッドアバターを作成するFlexAvatarを紹介する。
トレーニング手順はスムーズな遅延アバター空間を生じ,任意の数の入力観測に適合する恒等性とフレキシブルな適合性を実現する。
論文 参考訳(メタデータ) (2025-12-17T17:09:52Z) - Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文 参考訳(メタデータ) (2025-09-23T12:46:43Z) - Dream, Lift, Animate: From Single Images to Animatable Gaussian Avatars [20.807609264738865]
一つの画像からアニマタブルな3Dアバターを再構築する新しいフレームワークであるDream, Lift, Animate(DLA)を紹介する。
これは、マルチビュー生成、3Dガウスリフト、および3Dガウスのポーズ対応UV空間マッピングを活用することで実現される。
提案手法は,アクターHQと4D-Dressのデータセットに対して,知覚品質と測光精度の両方において,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-07-21T18:20:09Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。
NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。
MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos [10.795522875068073]
You Only Train Once (YOTO) は動的なヒューマンジェネレーションフレームワークであり、異なる動きを持つ異なる人間のアイデンティティを自由視点でレンダリングする。
本稿では,多元性自由視点レンダリングのためのフレームワークの能力を拡張するために,学習可能な識別符号のセットを提案する。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
論文 参考訳(メタデータ) (2023-03-10T10:23:17Z) - PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D
Video Sequence [60.46092534331516]
本稿では,短いRGB-Dシーケンスからパーソナライズされたインシシットニューラルアバター(PINA)を学習する方法を提案する。
PINAは完全なスキャンを必要としないし、人間の大規模なデータセットから事前の学習も必要ではない。
ポーズ条件付暗示面と変形場を用いて形状と非剛性変形を学習する手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T15:04:55Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。