Fugu-MT 論文翻訳(概要): AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars

論文の概要: AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars

arxiv url: http://arxiv.org/abs/2306.00547v2
Date: Fri, 2 Jun 2023 08:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 11:13:19.850782
Title: AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars
Title（参考訳）: AvatarStudio:3次元動的頭部アバターのテキスト駆動編集
Authors: Mohit Mendiratta, Xingang Pan, Mohamed Elgharib, Kartik Teotia, Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt
Abstract要約: 本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
参考スコア（独自算出の注目度）: 84.85009267371218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Capturing and editing full head performances enables the creation of virtual characters with various applications such as extended reality and media production. The past few years witnessed a steep rise in the photorealism of human head avatars. Such avatars can be controlled through different input data modalities, including RGB, audio, depth, IMUs and others. While these data modalities provide effective means of control, they mostly focus on editing the head movements such as the facial expressions, head pose and/or camera viewpoint. In this paper, we propose AvatarStudio, a text-based method for editing the appearance of a dynamic full head avatar. Our approach builds on existing work to capture dynamic performances of human heads using neural radiance field (NeRF) and edits this representation with a text-to-image diffusion model. Specifically, we introduce an optimization strategy for incorporating multiple keyframes representing different camera viewpoints and time stamps of a video performance into a single diffusion model. Using this personalized diffusion model, we edit the dynamic NeRF by introducing view-and-time-aware Score Distillation Sampling (VT-SDS) following a model-based guidance approach. Our method edits the full head in a canonical space, and then propagates these edits to remaining time steps via a pretrained deformation network. We evaluate our method visually and numerically via a user study, and results show that our method outperforms existing approaches. Our experiments validate the design choices of our method and highlight that our edits are genuine, personalized, as well as 3D- and time-consistent.
Abstract（参考訳）: フルヘッドパフォーマンスのキャプチャと編集により、拡張現実やメディアプロダクションなど、さまざまなアプリケーションで仮想文字を作成することができる。過去数年間、人間の頭部アバターの光現実主義の急激な上昇を目撃した。このようなアバターは、RGB、オーディオ、ディープ、IMUなど、さまざまな入力データモダリティによって制御できる。これらのデータモダリティは効果的な制御手段を提供するが、主に表情、頭部ポーズ、カメラ視点などの頭部の動きの編集に焦点を当てている。本稿では,動的な頭部アバターの出現を編集するためのテキストベース手法であるアバタースタディオを提案する。提案手法は,ニューラルラジアンス場(NeRF)を用いて人間の頭部の動的性能を捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。具体的には,映像性能の異なるカメラ視点とタイムスタンプを表現する複数のキーフレームを単一拡散モデルに組み込む最適化戦略を提案する。このパーソナライズされた拡散モデルを用いて,vt-sds(view-and-time-aware score distillation sampling)を導入した。提案手法は,全頭部を標準空間で編集し,これらの編集を事前学習した変形ネットワークを介して残時間ステップに伝達する。提案手法をユーザ調査により視覚的および数値的に評価し,既存の手法に勝ることを示す。実験では,本手法の設計選択を検証し,編集が本物でパーソナライズされ,パーソナライズされ,かつ3Dおよび時間一貫性があることを示す。

関連論文リスト

IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [33.12653115668027]
本手法は,幾何整合性を保証する多面体画像(MPI)を生成する。提案手法は, 1 つのデノナイジングプロセスを通じて, 最終的な出力を直接生成する。単眼ビデオから効果的に学習するために、ターゲットまたは基準カメラ空間で出力MPIをランダムに再構成するトレーニング機構を導入する。
論文参考訳（メタデータ） (2025-04-27T08:56:02Z)
DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models [4.851981427563145]
ビデオクリップから3Dヘッドアバターを生成するダイナミックモデルであるDynamicAvatarsを提案する。提案手法は,新規なプロンプトベースの編集モデルによる正確な編集を可能にする。
論文参考訳（メタデータ） (2024-11-24T06:22:30Z)
Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文参考訳（メタデータ） (2024-10-07T12:04:39Z)
GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文参考訳（メタデータ） (2024-09-18T13:05:43Z)
TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文参考訳（メタデータ） (2024-08-28T17:59:02Z)
GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image [89.70322127648349]
本稿では,多種多様な3DMM駆動ヘッドアバターに適用可能な汎用的なアバター編集手法を提案する。この目的を達成するために、単一の画像から一貫した3D修正フィールドへのリフト2D編集を可能にする新しい表現対応修正生成モデルを設計する。
論文参考訳（メタデータ） (2024-04-02T17:58:35Z)
One2Avatar: Generative Implicit Head Avatar For Few-shot User Adaptation [31.310769289315648]
本稿では,1ユーザあたり1枚または数枚の画像のみを利用した高品質なヘッドアバターを作成するための新しいアプローチを提案する。我々は2407名の被験者から多視点の表情データセットから3次元アニマタブルなフォトリアリスティックヘッドアバターの生成モデルを学習した。提案手法は,従来のアバター適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-19T07:48:29Z)
Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions [0.0]
短い単眼のRGBビデオとテキストの命令が与えられた場合、画像条件の拡散モデルを用いて1つのヘッドイメージを編集する。提案手法は, 変形可能なニューラルラディアンスフィールドヘッド合成法を用いて, 光リアルアニマタブルな3次元ニューラルヘッドアバターを合成する。
論文参考訳（メタデータ） (2023-06-05T14:10:28Z)
PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文参考訳（メタデータ） (2021-09-17T07:24:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。