論文の概要: Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.06506v1
- Date: Sun, 09 Mar 2025 08:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:04.733166
- Title: Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation
- Title(参考訳): 合成テキスト・画像生成のための微細アライメントとノイズリファインメント
- Authors: Amir Mohammad Izadi, Seyed Mohammad Hadi Hosseini, Soroush Vafaie Tabar, Ali Abdollahi, Armin Saghafian, Mahdieh Soleymani Baghshah,
- Abstract要約: テキスト制約を考慮に入れた目標を組み込んだ,革新的な学習自由度手法を提案する。
本手法は,提案する目的関数にのみ依存し,構成性を大幅に向上し,人的評価の24%向上を実現した。
私たちのきめ細かいノイズ改善は効果を証明し、パフォーマンスを最大5%向上させます。
- 参考スコア(独自算出の注目度): 2.1457109220047137
- License:
- Abstract: Text-to-image generative models have made significant advancements in recent years; however, accurately capturing intricate details in textual prompts, such as entity missing, attribute binding errors, and incorrect relationships remains a formidable challenge. In response, we present an innovative, training-free method that directly addresses these challenges by incorporating tailored objectives to account for textual constraints. Unlike layout-based approaches that enforce rigid structures and limit diversity, our proposed approach offers a more flexible arrangement of the scene by imposing just the extracted constraints from the text, without any unnecessary additions. These constraints are formulated as losses-entity missing, entity mixing, attribute binding, and spatial relationships, integrated into a unified loss that is applied in the first generation stage. Furthermore, we introduce a feedback-driven system for fine-grained initial noise refinement. This system integrates a verifier that evaluates the generated image, identifies inconsistencies, and provides corrective feedback. Leveraging this feedback, our refinement method first targets the unmet constraints by refining the faulty attention maps caused by initial noise, through the optimization of selective losses associated with these constraints. Subsequently, our unified loss function is reapplied to proceed the second generation phase. Experimental results demonstrate that our method, relying solely on our proposed objective functions, significantly enhances compositionality, achieving a 24% improvement in human evaluation and a 25% gain in spatial relationships. Furthermore, our fine-grained noise refinement proves effective, boosting performance by up to 5%. Code is available at https://github.com/hadi-hosseini/noise-refinement.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは近年、顕著な進歩を遂げているが、エンティティの欠如、属性のバインディングエラー、不正確な関係など、テキストのプロンプトにおける複雑な詳細を正確に捉えることは、依然として困難な課題である。
そこで本研究では,テキスト制約を考慮に入れた目標を組み込むことで,これらの課題に対処する,革新的な学習自由度手法を提案する。
厳密な構造を強制し、多様性を制限するレイアウトベースのアプローチとは異なり、提案手法は、不要な追加を加えることなく、テキストから抽出された制約だけを付与することによって、より柔軟なシーン配置を提供する。
これらの制約は、ロス・エンティリティの欠如、エンティティ・ミキシング、属性・バインディング、空間的関係として定式化され、第1世代で適用される統一的な損失に統合される。
さらに, 微粒化初期雑音改善のためのフィードバック駆動システムを提案する。
本システムは、生成した画像を評価し、矛盾を識別し、補正フィードバックを提供する検証器を統合する。
このフィードバックを生かし、まず初期雑音による注意マップの修正を行い、これらの制約に関連する選択的損失の最適化を行う。
その後、統合損失関数を再適用して第2世代を進行させる。
実験の結果,提案手法は目的関数のみに依存し,構成性を大幅に向上し,人的評価が24%向上し,空間的関係が25%向上した。
さらに, 音の微細化は有効であり, 性能を最大5%向上させることができた。
コードはhttps://github.com/hadi-hosseini/noise-refinementで入手できる。
関連論文リスト
- PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Enhancing Perceptual Loss with Adversarial Feature Matching for
Super-Resolution [5.258555266148511]
単一画像超解法 (SISR) は不確定な数の有効解を持つ不確定問題である。
これらのパターンアーティファクトの根本原因は、知覚的損失の事前学習目標と超解答目標とのミスマッチに遡ることができる。
論文 参考訳(メタデータ) (2020-05-15T12:36:54Z) - A recurrent cycle consistency loss for progressive face-to-face
synthesis [5.71097144710995]
本稿では, 対面合成領域における入力の出現を保ちつつ, サイクル整合損失の重大な欠陥に対処する。
この損失を用いてトレーニングされたネットワークが生成した画像は、ノイズを隠蔽し、さらなるタスクに使用を妨げていることを示す。
出力画像間の距離を最小化する「繰り返しサイクル整合損失」を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。