論文の概要: Enhancing Conditional Image Generation with Explainable Latent Space Manipulation
- arxiv url: http://arxiv.org/abs/2408.16232v1
- Date: Thu, 29 Aug 2024 03:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:05:40.587776
- Title: Enhancing Conditional Image Generation with Explainable Latent Space Manipulation
- Title(参考訳): 説明可能な遅延空間操作による条件画像生成の強化
- Authors: Kshitij Pathania,
- Abstract要約: 本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of image synthesis, achieving fidelity to a reference image while adhering to conditional prompts remains a significant challenge. This paper proposes a novel approach that integrates a diffusion model with latent space manipulation and gradient-based selective attention mechanisms to address this issue. Leveraging Grad-SAM (Gradient-based Selective Attention Manipulation), we analyze the cross attention maps of the cross attention layers and gradients for the denoised latent vector, deriving importance scores of elements of denoised latent vector related to the subject of interest. Using this information, we create masks at specific timesteps during denoising to preserve subjects while seamlessly integrating the reference image features. This approach ensures the faithful formation of subjects based on conditional prompts, while concurrently refining the background for a more coherent composition. Our experiments on places365 dataset demonstrate promising results, with our proposed model achieving the lowest mean and median Frechet Inception Distance (FID) scores compared to baseline models, indicating superior fidelity preservation. Furthermore, our model exhibits competitive performance in aligning the generated images with provided textual descriptions, as evidenced by high CLIP scores. These results highlight the effectiveness of our approach in both fidelity preservation and textual context preservation, offering a significant advancement in text-to-image synthesis tasks.
- Abstract(参考訳): 画像合成の領域では、条件付きプロンプトに固執しながら参照画像への忠実性を達成することは重要な課題である。
本稿では,この問題に対処するために,拡散モデルと潜時空間操作と勾配に基づく選択的注意機構を統合した新しいアプローチを提案する。
グラッドSAM(グラディエントベース選択注意操作)を応用し、関心対象に関連する認知潜在ベクトルの要素の重要スコアを導出し、クロスアテンション層と遅延ベクトルの勾配の横断アテンションマップを解析する。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
このアプローチは、条件付きプロンプトに基づく主題の忠実な形成を保証すると同時に、より一貫性のある構成のために背景を同時に洗練する。
提案モデルでは, ベースラインモデルと比較して, 平均, 中央値のFrechet Inception Distance(FID)スコアが最低値, 中央値のFID(Frechet Inception Distance)スコアを達成し, 良好なフィデリティ保存を示す。
さらに,本モデルでは,高CLIPスコアが示すように,生成した画像をテキスト記述で整列する上での競合性能を示す。
これらの結果は,テキスト・ツー・イメージ合成タスクにおいて,文章の保存と文脈保存の両面でのアプローチの有効性を浮き彫りにしている。
関連論文リスト
- Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps [8.195126516665914]
本稿では,パッチレベルのクロスアテンションスコアを集約し,潜時拡散モデルの解釈可能性を高めるイメージ・ツー・イメージマップI2AM法を提案する。
I2AMは、画像から画像への帰属分析を容易にし、拡散モデルが時間と頭において重要な特徴をどのように優先順位づけするかを観察できるようにする。
我々の理解をさらに深めるために、参照ベース画像の塗装作業に適した新しい評価基準を導入する。
論文 参考訳(メタデータ) (2024-07-17T06:15:05Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。