論文の概要: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.03183v1
- Date: Sun, 6 Aug 2023 18:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:12:33.131663
- Title: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いたフォトリアリスティック・アイデンティティ保存画像に基づく感情操作
- Authors: Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
- Abstract要約: In-the-wild」画像を用いた拡散モデルの感情操作能力について検討する。
我々は、AffectNet上で広範囲な評価を行い、画像の品質とリアリズムの観点から、我々のアプローチの優位性を示す。
- 参考スコア(独自算出の注目度): 31.55798962786664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the emotion manipulation capabilities of
diffusion models with "in-the-wild" images, a rather unexplored application
area relative to the vast and rapidly growing literature for image-to-image
translation tasks. Our proposed method encapsulates several pieces of prior
work, with the most important being Latent Diffusion models and text-driven
manipulation with CLIP latents. We conduct extensive qualitative and
quantitative evaluations on AffectNet, demonstrating the superiority of our
approach in terms of image quality and realism, while achieving competitive
results relative to emotion translation compared to a variety of GAN-based
counterparts. Code is released as a publicly available repo.
- Abstract(参考訳): 本稿では,画像から画像への変換タスクに関する膨大な文献に対して,比較的未探索な応用領域である「野生内」画像を用いた拡散モデルの感情操作能力について検討する。
提案手法は先行処理のいくつかをカプセル化しており,最も重要なのは遅延拡散モデルとCLIP潜伏子を用いたテキスト駆動操作である。
我々はAffectNetの質的、定量的な評価を行い、画像品質とリアリズムの観点からアプローチの優位性を実証するとともに、様々なGANベースのアプローチと比較して感情翻訳と競合する結果を得る。
コードは公開リポジトリとしてリリースされている。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。