論文の概要: Talk-to-Edit: Fine-Grained Facial Editing via Dialog
- arxiv url: http://arxiv.org/abs/2109.04425v1
- Date: Thu, 9 Sep 2021 17:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:12:34.332983
- Title: Talk-to-Edit: Fine-Grained Facial Editing via Dialog
- Title(参考訳): Talk-to-Edit: ダイアログによるきめ細かい顔編集
- Authors: Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, Ziwei Liu
- Abstract要約: Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
- 参考スコア(独自算出の注目度): 79.8726256912376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial editing is an important task in vision and graphics with numerous
applications. However, existing works are incapable to deliver a continuous and
fine-grained editing mode (e.g., editing a slightly smiling face to a big
laughing one) with natural interactions with users. In this work, we propose
Talk-to-Edit, an interactive facial editing framework that performs
fine-grained attribute manipulation through dialog between the user and the
system. Our key insight is to model a continual "semantic field" in the GAN
latent space. 1) Unlike previous works that regard the editing as traversing
straight lines in the latent space, here the fine-grained editing is formulated
as finding a curving trajectory that respects fine-grained attribute landscape
on the semantic field. 2) The curvature at each step is location-specific and
determined by the input image as well as the users' language requests. 3) To
engage the users in a meaningful dialog, our system generates language feedback
by considering both the user request and the current state of the semantic
field.
We also contribute CelebA-Dialog, a visual-language facial editing dataset to
facilitate large-scale study. Specifically, each image has manually annotated
fine-grained attribute annotations as well as template-based textual
descriptions in natural language. Extensive quantitative and qualitative
experiments demonstrate the superiority of our framework in terms of 1) the
smoothness of fine-grained editing, 2) the identity/attribute preservation, and
3) the visual photorealism and dialog fluency. Notably, user study validates
that our overall system is consistently favored by around 80% of the
participants. Our project page is https://www.mmlab-ntu.com/project/talkedit/.
- Abstract(参考訳): 顔の編集は多くのアプリケーションで視覚とグラフィックスにおいて重要なタスクである。
しかし、既存の作品では、ユーザーとの自然な対話で、連続的かつきめ細かな編集モード(例えば、少し笑う顔を大笑いに編集するなど)を提供できない。
本研究では,ユーザとシステム間の対話を通じて詳細な属性操作を行う対話型顔編集フレームワークtalk-to-editを提案する。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
1) 潜在空間で直線を横切るような従来の作品とは異なり, 細粒度編集は, 意味分野における細粒度属性の景観を尊重する曲がりくねった軌跡を求めるものとして定式化されている。
2)各ステップの曲率は,入力画像とユーザの言語要求によって位置特定され,決定される。
3)ユーザを有意義なダイアログに関連付けるために,システムでは,ユーザ要求と意味領域の状況の両方を考慮して,言語フィードバックを生成する。
CelebA-Dialogは、大規模な研究を容易にするために、視覚言語による顔編集データセットである。
特に、各画像は、自然言語におけるテンプレートベースのテキスト記述と同様に、手作業で細かな属性アノテーションを注釈している。
1) 細粒度編集の滑らかさ, 2) 同一性/属性保存, 3) 視覚的フォトリアリズムと対話的流動性の観点から, 広範な定量的・質的実験を行った。
特に、ユーザスタディは、私たちのシステム全体が参加者の約80%によって一貫して好まれていることを検証する。
プロジェクトページはhttps://www.mmlab-ntu.com/project/talkedit/です。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。