論文の概要: Efficient 3D-Aware Facial Image Editing via Attribute-Specific Prompt Learning
- arxiv url: http://arxiv.org/abs/2406.04413v1
- Date: Thu, 6 Jun 2024 18:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:39:07.942961
- Title: Efficient 3D-Aware Facial Image Editing via Attribute-Specific Prompt Learning
- Title(参考訳): 属性特異的プロンプト学習による3次元顔画像の効率的な編集
- Authors: Amandeep Kumar, Muhammad Awais, Sanath Narayan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer,
- Abstract要約: 本稿では,属性特異的なプロンプト学習に基づく効率的な3次元顔編集フレームワークを提案する。
提案フレームワークは,属性固有の特徴を維持しつつ,3次元認識とビューの整合性を備えた高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 40.6806832534633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing upon StyleGAN's expressivity and disentangled latent space, existing 2D approaches employ textual prompting to edit facial images with different attributes. In contrast, 3D-aware approaches that generate faces at different target poses require attribute-specific classifiers, learning separate model weights for each attribute, and are not scalable for novel attributes. In this work, we propose an efficient, plug-and-play, 3D-aware face editing framework based on attribute-specific prompt learning, enabling the generation of facial images with controllable attributes across various target poses. To this end, we introduce a text-driven learnable style token-based latent attribute editor (LAE). The LAE harnesses a pre-trained vision-language model to find text-guided attribute-specific editing direction in the latent space of any pre-trained 3D-aware GAN. It utilizes learnable style tokens and style mappers to learn and transform this editing direction to 3D latent space. To train LAE with multiple attributes, we use directional contrastive loss and style token loss. Furthermore, to ensure view consistency and identity preservation across different poses and attributes, we employ several 3D-aware identity and pose preservation losses. Our experiments show that our proposed framework generates high-quality images with 3D awareness and view consistency while maintaining attribute-specific features. We demonstrate the effectiveness of our method on different facial attributes, including hair color and style, expression, and others. Code: https://github.com/VIROBO-15/Efficient-3D-Aware-Facial-Image-Editing.
- Abstract(参考訳): StyleGANの表現力とゆがみのある潜在空間に基づいて、既存の2Dアプローチでは、テキストプロンプトを使用して、異なる属性で顔画像を編集する。
対照的に、異なるターゲットポーズで顔を生成する3D認識アプローチでは、属性固有の分類器が必要であり、各属性のモデルウェイトを個別に学習する必要があり、新しい属性には拡張性がない。
本研究では,属性特異的なプロンプト学習に基づく効率的な3次元顔編集フレームワークを提案する。
そこで本研究では,テキスト駆動型学習可能なトークンベースの潜在属性エディタ (LAE) を提案する。
LAEは、事前学習された3D対応GANの潜在空間において、テキスト誘導属性固有の編集方向を見つけるために、事前学習された視覚言語モデルを利用する。
学習可能なスタイルトークンとスタイルマッパーを使用して、この編集方向を学習し、3D潜在空間に変換する。
複数の属性でLEEを訓練するために、指向性コントラスト損失とスタイルトークン損失を用いる。
さらに、異なるポーズや属性間での視点の一貫性とアイデンティティの保存を確保するために、複数の3D認識IDを使用し、保存損失を発生させる。
提案手法は,属性固有の特徴を保ちながら,3次元認識と視点の整合性を有する高品質な画像を生成する。
髪の色やスタイル,表現など,顔のさまざまな属性に対して,本手法の有効性を実証する。
コード:https://github.com/VIROBO-15/Efficient-3D-Aware-Facial-Image-Editing
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - SAT3D: Image-driven Semantic Attribute Transfer in 3D [31.087615253643975]
参照画像からセマンティック属性を編集し,画像駆動型セマンティック属性変換法を3D(SAT3D)で提案する。
指導のために、各属性をフレーズベースの記述子群に関連付け、定量測定モジュール(QMM)を開発する。
本稿では,複数の領域にまたがる3次元属性変換結果について述べるとともに,従来の2次元画像編集手法との比較を行う。
論文 参考訳(メタデータ) (2024-08-03T04:41:46Z) - A Reference-Based 3D Semantic-Aware Framework for Accurate Local Facial Attribute Editing [19.21301510545666]
本稿では,遅延ベースの編集手法と参照ベースの編集手法を融合した新しいフレームワークを提案する。
提案手法では、3次元GANインバージョン技術を用いて、参照画像からの属性を3次元平面空間に埋め込む。
粗く微細な塗布戦略を適用して、未ターゲット領域の整合性を維持する。
論文 参考訳(メタデータ) (2024-07-25T20:55:23Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - AttriHuman-3D: Editable 3D Human Avatar Generation with Attribute
Decomposition and Indexing [79.38471599977011]
編集可能な3次元人体生成モデルであるAttriHuman-3Dを提案する。
属性空間全体のすべての属性を生成し、6つの特徴平面を分解し、異なる属性インデックスで操作する。
我々のモデルは、異なる属性間の強い絡み合いを提供し、きめ細かい画像編集を可能にし、高品質な3Dアバターを生成する。
論文 参考訳(メタデータ) (2023-12-03T03:20:10Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Disentangling 3D Attributes from a Single 2D Image: Human Pose, Shape
and Garment [20.17991487155361]
本研究では,2次元画像データのみから不整合3次元属性を抽出する課題に焦点をあてる。
本手法は,これら3つの画像特性の非絡み合った潜在表現を用いた埋め込みを学習する。
本研究では, 暗黙的な形状の損失が, モデルが微細な復元の詳細を復元する上で, どのような効果があるかを示す。
論文 参考訳(メタデータ) (2022-08-05T13:48:43Z) - Text and Image Guided 3D Avatar Generation and Manipulation [0.0]
テキストや「若い顔」や「驚きの顔」といった画像に基づくプロンプトを用いて、モデルの形状とテクスチャの両方を操作できる新しい3D操作法を提案する。
提案手法は操作に5分しか必要とせず,提案手法の有効性を広範囲な結果と比較で実証する。
論文 参考訳(メタデータ) (2022-02-12T14:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。