論文の概要: DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.15732v1
- Date: Sun, 24 Nov 2024 06:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:09.146048
- Title: DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models
- Title(参考訳): Dynamic Avatars: 正確な動的顔面アバター再構成と拡散モデルによる精密編集
- Authors: Yangyang Qian, Yuan Sun, Yu Guo,
- Abstract要約: ビデオクリップから3Dヘッドアバターを生成するダイナミックモデルであるDynamicAvatarsを提案する。
提案手法は,新規なプロンプトベースの編集モデルによる正確な編集を可能にする。
- 参考スコア(独自算出の注目度): 4.851981427563145
- License:
- Abstract: Generating and editing dynamic 3D head avatars are crucial tasks in virtual reality and film production. However, existing methods often suffer from facial distortions, inaccurate head movements, and limited fine-grained editing capabilities. To address these challenges, we present DynamicAvatars, a dynamic model that generates photorealistic, moving 3D head avatars from video clips and parameters associated with facial positions and expressions. Our approach enables precise editing through a novel prompt-based editing model, which integrates user-provided prompts with guiding parameters derived from large language models (LLMs). To achieve this, we propose a dual-tracking framework based on Gaussian Splatting and introduce a prompt preprocessing module to enhance editing stability. By incorporating a specialized GAN algorithm and connecting it to our control module, which generates precise guiding parameters from LLMs, we successfully address the limitations of existing methods. Additionally, we develop a dynamic editing strategy that selectively utilizes specific training datasets to improve the efficiency and adaptability of the model for dynamic editing tasks.
- Abstract(参考訳): ダイナミックな3Dヘッドアバターの生成と編集は、仮想現実とフィルム生産において重要なタスクである。
しかし、既存の方法は顔の歪み、不正確な頭部の動き、細かい編集能力に悩まされることが多い。
これらの課題に対処するために、ダイナミックアバター(DynamicAvatars)という、映像クリップや顔の位置や表情に関連するパラメータから3Dヘッドアバターを動かせるフォトリアリスティックなモデルを提案する。
提案手法は,ユーザが提供するプロンプトと,大規模言語モデル(LLM)からの導出パラメータを統合した,新規なプロンプトベースの編集モデルによる正確な編集を可能にする。
そこで本稿では,ガウススプラッティングに基づくデュアルトラッキングフレームワークを提案し,編集安定性を向上させるためのプロンプト前処理モジュールを提案する。
LLMから正確な誘導パラメータを生成する特殊なGANアルゴリズムを組み込んで制御モジュールに接続することにより、既存の手法の限界に対処することに成功した。
さらに、特定のトレーニングデータセットを選択的に活用し、動的編集タスクにおけるモデルの効率性と適応性を向上させる動的編集戦略を開発する。
関連論文リスト
- Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation [25.047474784265773]
最近の4D動的シーン編集手法では、動的シーン合成に使用される数千の2D画像を編集する必要がある。
これらの手法は動的シーンの時間次元に関して拡張性がない。
本研究では,時間次元の面でよりスケーラブルな動的シーン編集手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T08:18:49Z) - PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-16T20:26:30Z) - BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:38:51Z) - TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。
我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。
提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文 参考訳(メタデータ) (2024-08-28T17:59:02Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。