論文の概要: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.03183v1
- Date: Sun, 6 Aug 2023 18:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:12:33.131663
- Title: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いたフォトリアリスティック・アイデンティティ保存画像に基づく感情操作
- Authors: Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
- Abstract要約: In-the-wild」画像を用いた拡散モデルの感情操作能力について検討する。
我々は、AffectNet上で広範囲な評価を行い、画像の品質とリアリズムの観点から、我々のアプローチの優位性を示す。
- 参考スコア(独自算出の注目度): 31.55798962786664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the emotion manipulation capabilities of
diffusion models with "in-the-wild" images, a rather unexplored application
area relative to the vast and rapidly growing literature for image-to-image
translation tasks. Our proposed method encapsulates several pieces of prior
work, with the most important being Latent Diffusion models and text-driven
manipulation with CLIP latents. We conduct extensive qualitative and
quantitative evaluations on AffectNet, demonstrating the superiority of our
approach in terms of image quality and realism, while achieving competitive
results relative to emotion translation compared to a variety of GAN-based
counterparts. Code is released as a publicly available repo.
- Abstract(参考訳): 本稿では,画像から画像への変換タスクに関する膨大な文献に対して,比較的未探索な応用領域である「野生内」画像を用いた拡散モデルの感情操作能力について検討する。
提案手法は先行処理のいくつかをカプセル化しており,最も重要なのは遅延拡散モデルとCLIP潜伏子を用いたテキスト駆動操作である。
我々はAffectNetの質的、定量的な評価を行い、画像品質とリアリズムの観点からアプローチの優位性を実証するとともに、様々なGANベースのアプローチと比較して感情翻訳と競合する結果を得る。
コードは公開リポジトリとしてリリースされている。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [70.58988592832684]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。