論文の概要: Zero-shot Text-driven Physically Interpretable Face Editing
- arxiv url: http://arxiv.org/abs/2308.05976v1
- Date: Fri, 11 Aug 2023 07:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:55:48.665210
- Title: Zero-shot Text-driven Physically Interpretable Face Editing
- Title(参考訳): ゼロショットテキスト駆動物理的解釈可能な顔編集
- Authors: Yapeng Meng, Songru Yang, Xu Hu, Rui Zhao, Lincheng Li, Zhenwei Shi,
Zhengxia Zou
- Abstract要約: 本稿では、任意のテキストプロンプトに基づく顔編集のための、新しく物理的に解釈可能な手法を提案する。
本手法は, 同一性が高く, 画像品質が高い物理的に解釈可能な顔編集結果を生成することができる。
- 参考スコア(独自算出の注目度): 29.32334174584623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a novel and physically interpretable method for face
editing based on arbitrary text prompts. Different from previous
GAN-inversion-based face editing methods that manipulate the latent space of
GANs, or diffusion-based methods that model image manipulation as a reverse
diffusion process, we regard the face editing process as imposing vector flow
fields on face images, representing the offset of spatial coordinates and color
for each image pixel. Under the above-proposed paradigm, we represent the
vector flow field in two ways: 1) explicitly represent the flow vectors with
rasterized tensors, and 2) implicitly parameterize the flow vectors as
continuous, smooth, and resolution-agnostic neural fields, by leveraging the
recent advances of implicit neural representations. The flow vectors are
iteratively optimized under the guidance of the pre-trained Contrastive
Language-Image Pretraining~(CLIP) model by maximizing the correlation between
the edited image and the text prompt. We also propose a learning-based one-shot
face editing framework, which is fast and adaptable to any text prompt input.
Our method can also be flexibly extended to real-time video face editing.
Compared with state-of-the-art text-driven face editing methods, our method can
generate physically interpretable face editing results with high identity
consistency and image quality. Our code will be made publicly available.
- Abstract(参考訳): 本稿では,任意のテキストプロンプトに基づく顔編集のための新規かつ物理的に解釈可能な手法を提案する。
画像操作を逆拡散過程としてモデル化する拡散法やGANの潜伏空間を操作する従来のGAN反転型顔編集法と異なり、顔編集処理は顔画像にベクトルフロー場を付与し、各画像画素の空間座標と色をオフセットとして表現する。
上記のパラダイムの下で、ベクトルフロー場を2つの方法で表現する。
1)ラスタ化テンソルを伴う流れベクトルを明示的に表現し,
2)近年の暗黙的神経表現の進歩を活用して,流れベクトルを連続的,滑らかで,解像度に依存しないニューラルネットワークとして暗黙的にパラメータ化する。
フローベクトルは、編集された画像とテキストプロンプトの相関を最大化することにより、事前訓練されたContrastive Language-Image Pretraining~(CLIP)モデルのガイダンスの下で反復的に最適化される。
また,任意のテキストプロンプト入力に高速かつ適応可能な,学習ベースのワンショット顔編集フレームワークを提案する。
本手法は,リアルタイムの映像編集にも柔軟に拡張できる。
本手法は,最先端のテキスト駆動顔編集法と比較し,身体的に解釈可能な顔編集結果を生成することができる。
私たちのコードは公開されます。
関連論文リスト
- Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models [0.6345523830122168]
我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。
この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
論文 参考訳(メタデータ) (2023-12-09T02:55:35Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。