論文の概要: CosAvatar: Consistent and Animatable Portrait Video Tuning with Text
Prompt
- arxiv url: http://arxiv.org/abs/2311.18288v1
- Date: Thu, 30 Nov 2023 06:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:40:56.421280
- Title: CosAvatar: Consistent and Animatable Portrait Video Tuning with Text
Prompt
- Title(参考訳): CosAvatar:テキストプロンプトによる一貫性とアニマタブルなポートレートビデオチューニング
- Authors: Haiyao Xiao, Chenglai Zhong, Xuan Gao, Yudong Guo, Juyong Zhang
- Abstract要約: テキスト誘導デジタルポートレート編集のためのフレームワークであるCosAvatarを提案する。
モノクロ映像とテキストの指示のみを入力として、時間的および3次元の整合性を持ったアニマタブルなポートレートを生成することができる。
提案手法は,テキストの指示に基づいて肖像画やローカル属性を正確に編集するだけでなく,ソースビデオによって駆動される表現的アニメーションもサポートする。
- 参考スコア(独自算出の注目度): 31.035189996266176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-guided digital portrait editing has attracted more and more
attentions. However, existing methods still struggle to maintain consistency
across time, expression, and view or require specific data prerequisites. To
solve these challenging problems, we propose CosAvatar, a high-quality and
user-friendly framework for portrait tuning. With only monocular video and text
instructions as input, we can produce animatable portraits with both temporal
and 3D consistency. Different from methods that directly edit in the 2D domain,
we employ a dynamic NeRF-based 3D portrait representation to model both the
head and torso. We alternate between editing the video frames' dataset and
updating the underlying 3D portrait until the edited frames reach 3D
consistency. Additionally, we integrate the semantic portrait priors to enhance
the edited results, allowing precise modifications in specified semantic areas.
Extensive results demonstrate that our proposed method can not only accurately
edit portrait styles or local attributes based on text instructions but also
support expressive animation driven by a source video.
- Abstract(参考訳): 近年,テキストガイド付きデジタルポートレート編集が注目されている。
しかし、既存のメソッドは時間、表現、ビューの一貫性を維持するのに苦戦し、特定のデータ前提条件を必要としている。
このような課題を解決するために,ポートレートチューニングのための高品質でユーザフレンドリなフレームワークであるCosAvatarを提案する。
単眼ビデオとテキスト命令のみを入力として、時間的および3次元的一貫性を持ったアニメーション可能なポートレートを生成することができる。
2Dドメインで直接編集する手法とは異なり、頭部と胴体の両方をモデル化するために、動的NeRFベースの3Dポートレート表現を用いる。
ビデオフレームのデータセットの編集と、編集されたフレームが3D一貫性に達するまで、基礎となる3Dポートレートの更新を交互に行う。
さらに,セマンティクス・ポートレート・プリエントを統合して編集結果を強化し,特定のセマンティクス領域における正確な修正を可能にする。
提案手法は,テキスト指示に基づくポートレートスタイルや局所属性を正確に編集できるだけでなく,ソースビデオによる表現力のあるアニメーションもサポートする。
関連論文リスト
- Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - NeRF-Insert: 3D Local Editing with Multimodal Control Signals [97.91172669905578]
NeRF-InsertはNeRF編集フレームワークで、ユーザーは柔軟なレベルのコントロールで高品質なローカル編集ができる。
我々は,シーン編集を塗装上の問題として捉え,シーンのグローバルな構造を保たせるようにした。
以上の結果から,視覚的品質が向上し,元のNeRFとの整合性も向上した。
論文 参考訳(メタデータ) (2024-04-30T02:04:49Z) - MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing [61.014328598895524]
textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。
幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
論文 参考訳(メタデータ) (2023-12-12T03:04:08Z) - InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image [25.076270175205593]
InstructPix2NeRFは、人間の指示で単一のオープンワールドイメージから3D対応のポートレート編集を可能にする。
中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。
論文 参考訳(メタデータ) (2023-11-06T02:21:11Z) - VIVE3D: Viewpoint-Independent Video Editing using 3D-Aware GANs [45.31397724415891]
画像ベースの3D GANをビデオ編集に拡張する新しいアプローチであるVIVE3Dを紹介する。
我々は3D GANの固有の特性によって実現された頭部の新規なビューを示す編集を初めて披露する。
論文 参考訳(メタデータ) (2023-03-28T11:15:57Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - 3DAvatarGAN: Bridging Domains for Personalized Editable Avatars [75.31960120109106]
3D-GANは、一貫した構造を持つ大規模データセットのトレーニングにより、幾何学とテクスチャを合成する。
本稿では,ソースドメインが事前訓練された3D-GANであり,ターゲットドメインが2D-GANである適応フレームワークを提案する。
本稿では,芸術領域の誇張された幾何学をモデル化するための変形に基づく手法について述べる。
論文 参考訳(メタデータ) (2023-01-06T19:58:47Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。