論文の概要: MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing
- arxiv url: http://arxiv.org/abs/2312.06947v1
- Date: Tue, 12 Dec 2023 03:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:36:11.220307
- Title: MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing
- Title(参考訳): MaTe3D: マスク付きテキストベースの3D画像編集
- Authors: Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen
Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang
- Abstract要約: bftextMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
本手法は,修正マスクとテキストプロンプトを付与した3次元顔画像を忠実に生成する。
私たちのコードとモデルは公開されます。
- 参考スコア(独自算出の注目度): 30.813020629796014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D-aware face editing has witnessed remarkable progress. Although
current approaches successfully perform mask-guided or text-based editing,
these properties have not been combined into a single method. To address this
limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware
portrait editing. First, we propose a new SDF-based 3D generator. To better
perform masked-based editing (mainly happening in local areas), we propose SDF
and density consistency losses, aiming to effectively model both the global and
local representations jointly. Second, we introduce an inference-optimized
method. We introduce two techniques based on the SDS (Score Distillation
Sampling), including a blending SDS and a conditional SDS. The former aims to
overcome the mismatch problem between geometry and appearance, ultimately
harming fidelity. The conditional SDS contributes to further producing
satisfactory and stable results. Additionally, we create CatMask-HQ dataset, a
large-scale high-resolution cat face annotations. We perform experiments on
both the FFHQ and CatMask-HQ datasets to demonstrate the effectiveness of the
proposed method. Our method generates faithfully a edited 3D-aware face image
given a modified mask and a text prompt. Our code and models will be publicly
released.
- Abstract(参考訳): 近年,3d認識による顔編集が目覚ましい進歩を遂げている。
現在のアプローチではマスク誘導やテキストベースの編集に成功しているが、これらの特性は単一の方法に統合されていない。
この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。
まず,SDFを用いた新しい3Dジェネレータを提案する。
マスクベースの編集(主に地域において)をより良く行うため,グローバルとローカルの両方の表現を効果的にモデル化することを目的として,SDFと密度一貫性の損失を提案する。
次に,推論最適化手法を提案する。
本稿では,SDS(Score Distillation Smpling)と条件付きSDS(Score Distillation Smpling)の2つの手法を紹介する。
前者は幾何学と外見のミスマッチ問題を克服し、究極的には忠実性を損なうことを目的としている。
条件付きSDSは、さらなる良好な安定な結果をもたらす。
さらに、大規模な高解像度の猫顔アノテーションであるCatMask-HQデータセットを作成します。
FFHQとCatMask-HQのデータセットを用いて実験を行い,提案手法の有効性を実証した。
本手法は,修正マスクとテキストプロンプトを付与した3次元顔画像を忠実に生成する。
私たちのコードとモデルは公開されます。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - DragTex: Generative Point-Based Texture Editing on 3D Mesh [11.163205302136625]
本稿ではDragTexと呼ばれる3次元メッシュテクスチャ生成手法を提案する。
この方法は拡散モデルを用いて、変形したシルエット付近の局所的に不整合なテクスチャを異なる視点でブレンドする。
個々のビューを個別にトレーニングするのではなく、マルチビューイメージを使用してLoRAをトレーニングします。
論文 参考訳(メタデータ) (2024-03-04T17:05:01Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - Text-Guided 3D Face Synthesis -- From Generation to Editing [53.86765812392627]
顔生成から編集までの統一的なテキスト誘導フレームワークを提案する。
我々は、RGBおよびYUV空間のテクスチャ品質を高めるために、微調整されたテクスチャ拡散モデルを用いている。
整合性を維持しつつ編集効率を向上させるための自己誘導整合性ウェイト戦略を提案する。
論文 参考訳(メタデータ) (2023-12-01T06:36:23Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。