論文の概要: ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space
Manipulation
- arxiv url: http://arxiv.org/abs/2305.14742v2
- Date: Mon, 5 Jun 2023 10:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 01:01:29.520607
- Title: ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space
Manipulation
- Title(参考訳): chatface: 拡散潜在空間操作によるチャット誘導実顔編集
- Authors: Dongxu Yue, Qin Guo, Munan Ning, Jiaxi Cui, Yuesheng Zhu, Li Yuan
- Abstract要約: そこで本研究では,テキスト駆動による画像編集をセマンティック潜時空間の拡散モデルで行う手法を提案する。
拡散モデルの時間的特徴を生成過程における意味条件と整合させることにより,安定な操作戦略を導入する。
我々はChatFaceという対話型システムを開発し、大きな言語モデルのゼロショット推論能力を組み合わせて効率的な操作を行う。
- 参考スコア(独自算出の注目度): 22.724306705927095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing real facial images is a crucial task in computer vision with
significant demand in various real-world applications. While GAN-based methods
have showed potential in manipulating images especially when combined with
CLIP, these methods are limited in their ability to reconstruct real images due
to challenging GAN inversion capability. Despite the successful image
reconstruction achieved by diffusion-based methods, there are still challenges
in effectively manipulating fine-gained facial attributes with textual
instructions.To address these issues and facilitate convenient manipulation of
real facial images, we propose a novel approach that conduct text-driven image
editing in the semantic latent space of diffusion model. By aligning the
temporal feature of the diffusion model with the semantic condition at
generative process, we introduce a stable manipulation strategy, which perform
precise zero-shot manipulation effectively. Furthermore, we develop an
interactive system named ChatFace, which combines the zero-shot reasoning
ability of large language models to perform efficient manipulations in
diffusion semantic latent space. This system enables users to perform complex
multi-attribute manipulations through dialogue, opening up new possibilities
for interactive image editing. Extensive experiments confirmed that our
approach outperforms previous methods and enables precise editing of real
facial images, making it a promising candidate for real-world applications.
Project page: https://dongxuyue.github.io/chatface/
- Abstract(参考訳): 実際の顔画像の編集はコンピュータビジョンにおいて重要な課題であり、様々な現実世界のアプリケーションにかなりの需要がある。
GANベースの手法は、特にCLIPと組み合わせた場合、画像を操作する可能性を示しているが、これらの手法は、GAN反転能力の挑戦により、実際の画像を再構成する能力に制限されている。
拡散法によって達成された画像再構成は成功したものの,これらの課題に対処し,実際の顔画像の操作を容易にするために,拡散モデルのセマンティック潜在空間でテキスト駆動画像編集を行う新しいアプローチを提案する。
生成過程における拡散モデルの時間的特徴と意味的条件を整合させることにより,正確なゼロショット操作を効果的に行う安定した操作戦略を提案する。
さらに,大言語モデルのゼロショット推論機能を組み合わせたChatFaceという対話型システムを開発し,拡散意味潜在空間における効率的な操作を行う。
本システムにより,対話による複雑な複数属性操作が可能となり,インタラクティブな画像編集が可能となる。
大規模な実験により,本手法は従来の手法よりも優れており,実際の顔画像の正確な編集が可能であることが確認された。
プロジェクトページ: https://dongxuyue.github.io/chatface/
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural
Radiance Fields [39.57313951313061]
既存の操作方法は広範囲の人的労働を必要とする。
我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストを必要とするように設計されている。
我々のアプローチは、NeRFで再構成された顔のテキスト駆動による操作に最初に対処するものである。
論文 参考訳(メタデータ) (2023-07-21T08:22:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Face Forgery Detection Based on Facial Region Displacement Trajectory
Series [10.338298543908339]
本研究では,顔領域変位の軌跡に基づく操作映像の検出手法を開発した。
この情報を用いて、操作されたビデオの軌跡列に多次元のアーティファクトを露呈するネットワークを構築した。
論文 参考訳(メタデータ) (2022-12-07T14:47:54Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。