Fugu-MT 論文翻訳(概要): Enhancing Conditional Image Generation with Explainable Latent Space Manipulation

論文の概要: Enhancing Conditional Image Generation with Explainable Latent Space Manipulation

arxiv url: http://arxiv.org/abs/2408.16232v1
Date: Thu, 29 Aug 2024 03:12:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 15:05:40.587776
Title: Enhancing Conditional Image Generation with Explainable Latent Space Manipulation
Title（参考訳）: 説明可能な遅延空間操作による条件画像生成の強化
Authors: Kshitij Pathania,
Abstract要約: 本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of image synthesis, achieving fidelity to a reference image while adhering to conditional prompts remains a significant challenge. This paper proposes a novel approach that integrates a diffusion model with latent space manipulation and gradient-based selective attention mechanisms to address this issue. Leveraging Grad-SAM (Gradient-based Selective Attention Manipulation), we analyze the cross attention maps of the cross attention layers and gradients for the denoised latent vector, deriving importance scores of elements of denoised latent vector related to the subject of interest. Using this information, we create masks at specific timesteps during denoising to preserve subjects while seamlessly integrating the reference image features. This approach ensures the faithful formation of subjects based on conditional prompts, while concurrently refining the background for a more coherent composition. Our experiments on places365 dataset demonstrate promising results, with our proposed model achieving the lowest mean and median Frechet Inception Distance (FID) scores compared to baseline models, indicating superior fidelity preservation. Furthermore, our model exhibits competitive performance in aligning the generated images with provided textual descriptions, as evidenced by high CLIP scores. These results highlight the effectiveness of our approach in both fidelity preservation and textual context preservation, offering a significant advancement in text-to-image synthesis tasks.
Abstract（参考訳）: 画像合成の領域では、条件付きプロンプトに固執しながら参照画像への忠実性を達成することは重要な課題である。本稿では,この問題に対処するために,拡散モデルと潜時空間操作と勾配に基づく選択的注意機構を統合した新しいアプローチを提案する。グラッドSAM(グラディエントベース選択注意操作)を応用し、関心対象に関連する認知潜在ベクトルの要素の重要スコアを導出し、クロスアテンション層と遅延ベクトルの勾配の横断アテンションマップを解析する。この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。このアプローチは、条件付きプロンプトに基づく主題の忠実な形成を保証すると同時に、より一貫性のある構成のために背景を同時に洗練する。提案モデルでは, ベースラインモデルと比較して, 平均, 中央値のFrechet Inception Distance(FID)スコアが最低値, 中央値のFID(Frechet Inception Distance)スコアを達成し, 良好なフィデリティ保存を示す。さらに,本モデルでは,高CLIPスコアが示すように,生成した画像をテキスト記述で整列する上での競合性能を示す。これらの結果は,テキスト・ツー・イメージ合成タスクにおいて,文章の保存と文脈保存の両面でのアプローチの有効性を浮き彫りにしている。

関連論文リスト

"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
CIMAGE: Exploiting the Conditional Independence in Masked Graph Auto-encoders [3.700463358780727]
条件付き独立性(CI)は本質的に最小冗長性と最大関連基準を満たすが、その適用は通常下流ラベルへのアクセスを必要とする。 CIMAGEは、条件付き独立を利用して、潜伏空間における効果的なマスキング戦略を導出する新しいアプローチである。我々の理論解析は,CIMAGEの新しいCI対応マスキング手法の優位性をさらに裏付けるものである。
論文参考訳（メタデータ） (2025-03-10T20:59:27Z)
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文参考訳（メタデータ） (2024-11-25T15:40:47Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps [8.195126516665914]
本稿では,パッチレベルのクロスアテンションスコアを集約し,潜時拡散モデルの解釈可能性を高めるイメージ・ツー・イメージマップI2AM法を提案する。 I2AMは、画像から画像への帰属分析を容易にし、拡散モデルが時間と頭において重要な特徴をどのように優先順位づけするかを観察できるようにする。我々の理解をさらに深めるために、参照ベース画像の塗装作業に適した新しい評価基準を導入する。
論文参考訳（メタデータ） (2024-07-17T06:15:05Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文参考訳（メタデータ） (2023-11-06T18:33:24Z)
Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文参考訳（メタデータ） (2023-06-16T14:30:41Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。