Fugu-MT 論文翻訳(概要): Photorealistic and Identity-Preserving Image-Based Emotion Manipulation with Latent Diffusion Models

論文の概要: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation with Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2308.03183v1
Date: Sun, 6 Aug 2023 18:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 16:12:33.131663
Title: Photorealistic and Identity-Preserving Image-Based Emotion Manipulation with Latent Diffusion Models
Title（参考訳）: 潜時拡散モデルを用いたフォトリアリスティック・アイデンティティ保存画像に基づく感情操作
Authors: Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
Abstract要約: In-the-wild」画像を用いた拡散モデルの感情操作能力について検討する。我々は、AffectNet上で広範囲な評価を行い、画像の品質とリアリズムの観点から、我々のアプローチの優位性を示す。
参考スコア（独自算出の注目度）: 31.55798962786664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the emotion manipulation capabilities of diffusion models with "in-the-wild" images, a rather unexplored application area relative to the vast and rapidly growing literature for image-to-image translation tasks. Our proposed method encapsulates several pieces of prior work, with the most important being Latent Diffusion models and text-driven manipulation with CLIP latents. We conduct extensive qualitative and quantitative evaluations on AffectNet, demonstrating the superiority of our approach in terms of image quality and realism, while achieving competitive results relative to emotion translation compared to a variety of GAN-based counterparts. Code is released as a publicly available repo.
Abstract（参考訳）: 本稿では,画像から画像への変換タスクに関する膨大な文献に対して,比較的未探索な応用領域である「野生内」画像を用いた拡散モデルの感情操作能力について検討する。提案手法は先行処理のいくつかをカプセル化しており,最も重要なのは遅延拡散モデルとCLIP潜伏子を用いたテキスト駆動操作である。我々はAffectNetの質的、定量的な評価を行い、画像品質とリアリズムの観点からアプローチの優位性を実証するとともに、様々なGANベースのアプローチと比較して感情翻訳と競合する結果を得る。コードは公開リポジトリとしてリリースされている。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文参考訳（メタデータ） (2025-03-19T20:50:10Z)
d-Sketch: Improving Visual Fidelity of Sketch-to-Image Translation with Pretrained Latent Diffusion Models without Retraining [18.73832646369506]
本稿では,大規模な拡散モデルの特徴一般化機能を利用したスケッチ・ツー・イメージ翻訳手法を提案する。実験結果から,提案手法は定性的,定量的なベンチマークにおいて既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-02-19T11:54:45Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文参考訳（メタデータ） (2025-02-02T15:43:13Z)
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。提案手法は,合成画像の多様性を増大させる問題に対処する。本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文参考訳（メタデータ） (2024-09-25T14:02:43Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文参考訳（メタデータ） (2024-05-31T17:41:11Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。