論文の概要: TEDRA: Text-based Editing of Dynamic and Photoreal Actors
- arxiv url: http://arxiv.org/abs/2408.15995v1
- Date: Wed, 28 Aug 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 14:59:16.331043
- Title: TEDRA: Text-based Editing of Dynamic and Photoreal Actors
- Title(参考訳): TEDRA:動的およびフォトリアルアクターのテキストベースの編集
- Authors: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann,
- Abstract要約: TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。
我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。
提供されるテキストプロンプトに基づいて動的アバターを変更する。
- 参考スコア(独自算出の注目度): 59.480513384611804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar's high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.
- Abstract(参考訳): 過去数年間で、リアルな人間のビデオだけから、フォトリアリスティックで乾燥可能な3Dアバターを作ることで、大きな進歩を遂げてきた。
しかし、残る課題は、テキストによる記述により、きめ細やかでユーザフレンドリーな衣服スタイルの編集である。
そこで本研究では,アバターの高忠実度,時空コヒーレンシ,ダイナミックスを維持し,骨格的なポーズとビューコントロールを可能にする,アバターのテキストベースの編集を可能にする最初の方法であるTEDRAを提案する。
まずモデルをトレーニングし、リアルアクターの制御可能で高忠実なデジタルレプリカを作成する。
次に、異なるカメラアングルから取得した実人物の様々なフレームを微調整することで、事前学習した生成拡散モデルをパーソナライズし、デジタル表現が実人物の動態や動きを忠実に捉えることを保証する。
この2段階のプロセスは、人間の動的アバター編集に対する我々のアプローチの基礎となる。
このパーソナライズされた拡散モデルを用いて、モデルに基づくガイダンスフレームワークにおいて、Personalized Normal Aligned Score Distillation Sampling (PNA-SDS)を用いて、提供されたテキストプロンプトに基づいて動的アバターを変更する。
さらに,高品質な編集を確実にするための時間ステップアニール戦略を提案する。
私たちの結果は、機能や視覚的品質に関する以前の作業よりも明らかに改善されていることを示しています。
関連論文リスト
- DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models [4.851981427563145]
ビデオクリップから3Dヘッドアバターを生成するダイナミックモデルであるDynamicAvatarsを提案する。
提案手法は,新規なプロンプトベースの編集モデルによる正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-11-24T06:22:30Z) - EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。
提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文 参考訳(メタデータ) (2024-09-22T22:50:27Z) - MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space [25.24509617548819]
テキストプロンプトを利用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
主要なイノベーションは、フォトリアリスティックなアバター合成の課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:59:11Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - Dynamic Neural Garments [45.833166320896716]
本稿では,身体の関節運動を取り込み,リアルな動的衣服画像列を直接生成する解を提案する。
具体的には, アバターの目標関節運動列を考慮し, ダイナミック・ニューラル・ウェアスを提案し, プラウシブル・ダイナミック・ウェアスの外観をシミュレートし, レンダリングする。
論文 参考訳(メタデータ) (2021-02-23T17:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。