論文の概要: AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars
- arxiv url: http://arxiv.org/abs/2306.00547v2
- Date: Fri, 2 Jun 2023 08:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 11:13:19.850782
- Title: AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars
- Title(参考訳): AvatarStudio:3次元動的頭部アバターのテキスト駆動編集
- Authors: Mohit Mendiratta, Xingang Pan, Mohamed Elgharib, Kartik Teotia,
Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski,
Christian Theobalt
- Abstract要約: 本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
- 参考スコア(独自算出の注目度): 84.85009267371218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing and editing full head performances enables the creation of virtual
characters with various applications such as extended reality and media
production. The past few years witnessed a steep rise in the photorealism of
human head avatars. Such avatars can be controlled through different input data
modalities, including RGB, audio, depth, IMUs and others. While these data
modalities provide effective means of control, they mostly focus on editing the
head movements such as the facial expressions, head pose and/or camera
viewpoint. In this paper, we propose AvatarStudio, a text-based method for
editing the appearance of a dynamic full head avatar. Our approach builds on
existing work to capture dynamic performances of human heads using neural
radiance field (NeRF) and edits this representation with a text-to-image
diffusion model. Specifically, we introduce an optimization strategy for
incorporating multiple keyframes representing different camera viewpoints and
time stamps of a video performance into a single diffusion model. Using this
personalized diffusion model, we edit the dynamic NeRF by introducing
view-and-time-aware Score Distillation Sampling (VT-SDS) following a
model-based guidance approach. Our method edits the full head in a canonical
space, and then propagates these edits to remaining time steps via a pretrained
deformation network. We evaluate our method visually and numerically via a user
study, and results show that our method outperforms existing approaches. Our
experiments validate the design choices of our method and highlight that our
edits are genuine, personalized, as well as 3D- and time-consistent.
- Abstract(参考訳): フルヘッドパフォーマンスのキャプチャと編集により、拡張現実やメディアプロダクションなど、さまざまなアプリケーションで仮想文字を作成することができる。
過去数年間、人間の頭部アバターの光現実主義の急激な上昇を目撃した。
このようなアバターは、RGB、オーディオ、ディープ、IMUなど、さまざまな入力データモダリティによって制御できる。
これらのデータモダリティは効果的な制御手段を提供するが、主に表情、頭部ポーズ、カメラ視点などの頭部の動きの編集に焦点を当てている。
本稿では,動的な頭部アバターの出現を編集するためのテキストベース手法であるアバタースタディオを提案する。
提案手法は,ニューラルラジアンス場(NeRF)を用いて人間の頭部の動的性能を捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
具体的には,映像性能の異なるカメラ視点とタイムスタンプを表現する複数のキーフレームを単一拡散モデルに組み込む最適化戦略を提案する。
このパーソナライズされた拡散モデルを用いて,vt-sds(view-and-time-aware score distillation sampling)を導入した。
提案手法は,全頭部を標準空間で編集し,これらの編集を事前学習した変形ネットワークを介して残時間ステップに伝達する。
提案手法をユーザ調査により視覚的および数値的に評価し,既存の手法に勝ることを示す。
実験では,本手法の設計選択を検証し,編集が本物でパーソナライズされ,パーソナライズされ,かつ3Dおよび時間一貫性があることを示す。
関連論文リスト
- VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - One2Avatar: Generative Implicit Head Avatar For Few-shot User Adaptation [31.310769289315648]
本稿では,1ユーザあたり1枚または数枚の画像のみを利用した高品質なヘッドアバターを作成するための新しいアプローチを提案する。
我々は2407名の被験者から多視点の表情データセットから3次元アニマタブルなフォトリアリスティックヘッドアバターの生成モデルを学習した。
提案手法は,従来のアバター適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T07:48:29Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single
Video via Animatable 3D Gaussians [54.04227342828977]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions [0.0]
短い単眼のRGBビデオとテキストの命令が与えられた場合、画像条件の拡散モデルを用いて1つのヘッドイメージを編集する。
提案手法は, 変形可能なニューラルラディアンスフィールドヘッド合成法を用いて, 光リアルアニマタブルな3次元ニューラルヘッドアバターを合成する。
論文 参考訳(メタデータ) (2023-06-05T14:10:28Z) - I M Avatar: Implicit Morphable Head Avatars from Videos [68.13409777995392]
モノクロビデオから暗黙の頭部アバターを学習するための新しい手法であるIMavatarを提案する。
従来の3DMMによるきめ細かい制御機構に着想を得て, 学習用ブレンドサップとスキンフィールドによる表現・ポーズ関連変形を表現した。
本手法は,最先端の手法と比較して,幾何性を改善し,より完全な表現空間をカバーできることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2021-12-14T15:30:32Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。