論文の概要: MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing
- arxiv url: http://arxiv.org/abs/2312.06947v2
- Date: Sun, 28 Apr 2024 11:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:15:22.126440
- Title: MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing
- Title(参考訳): MaTe3D: マスクガイド付きテキストベースの3D画像編集
- Authors: Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang, Ming-Ming Cheng,
- Abstract要約: textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。
幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
- 参考スコア(独自算出の注目度): 61.014328598895524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-aware portrait editing has a wide range of applications in multiple fields. However, current approaches are limited due that they can only perform mask-guided or text-based editing. Even by fusing the two procedures into a model, the editing quality and stability cannot be ensured. To address this limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware portrait editing. In this framework, first, we introduce a new SDF-based 3D generator which learns local and global representations with proposed SDF and density consistency losses. This enhances masked-based editing in local areas; second, we present a novel distillation strategy: Conditional Distillation on Geometry and Texture (CDGT). Compared to exiting distillation strategies, it mitigates visual ambiguity and avoids mismatch between texture and geometry, thereby producing stable texture and convincing geometry while editing. Additionally, we create the CatMask-HQ dataset, a large-scale high-resolution cat face annotation for exploration of model generalization and expansion. We perform expensive experiments on both the FFHQ and CatMask-HQ datasets to demonstrate the editing quality and stability of the proposed method. Our method faithfully generates a 3D-aware edited face image based on a modified mask and a text prompt. Our code and models will be publicly released.
- Abstract(参考訳): 3D対応の肖像画編集は、複数の分野に幅広い応用がある。
しかし、マスクガイドやテキストベースの編集しかできないため、現在のアプローチは限られている。
2つのプロシージャをモデルに融合させることによっても、編集品質と安定性を確保することはできない。
この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。
まず,SDFに基づく新しい3Dジェネレータを導入し,SDFと密度の整合性による局所的およびグローバルな表現を学習する。
第2に、新しい蒸留戦略として、幾何とテクスチャの条件蒸留(CDGT)を提案する。
蒸留を終了する戦略と比較して、視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを回避し、編集中に安定したテクスチャと精巧な幾何学を生成する。
さらに、モデル一般化と拡張の探索のための大規模高解像度猫顔アノテーションであるCatMask-HQデータセットを作成する。
FFHQとCatMask-HQの両方のデータセットで高価な実験を行い、提案手法の編集品質と安定性を実証する。
本手法は,修正マスクとテキストプロンプトに基づく3次元顔画像の編集を忠実に行う。
私たちのコードとモデルは公開されます。
関連論文リスト
- DragTex: Generative Point-Based Texture Editing on 3D Mesh [11.163205302136625]
本稿ではDragTexと呼ばれる3次元メッシュテクスチャ生成手法を提案する。
この方法は拡散モデルを用いて、変形したシルエット付近の局所的に不整合なテクスチャを異なる視点でブレンドする。
個々のビューを個別にトレーニングするのではなく、マルチビューイメージを使用してLoRAをトレーニングします。
論文 参考訳(メタデータ) (2024-03-04T17:05:01Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - Text-Guided 3D Face Synthesis -- From Generation to Editing [53.86765812392627]
顔生成から編集までの統一的なテキスト誘導フレームワークを提案する。
我々は、RGBおよびYUV空間のテクスチャ品質を高めるために、微調整されたテクスチャ拡散モデルを用いている。
整合性を維持しつつ編集効率を向上させるための自己誘導整合性ウェイト戦略を提案する。
論文 参考訳(メタデータ) (2023-12-01T06:36:23Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。