論文の概要: Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.06381v1
- Date: Mon, 11 Mar 2024 02:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:30:04.546501
- Title: Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models
- Title(参考訳): テキスト・画像合成における意味的忠実度の向上:拡散モデルにおける注意制御
- Authors: Yang Zhang, Teoh Tze Tzun, Lim Wei Hern, Tiviatis Sim, Kenji Kawaguchi
- Abstract要約: 拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 23.786473791344395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in diffusion models have notably improved the perceptual
quality of generated images in text-to-image synthesis tasks. However,
diffusion models often struggle to produce images that accurately reflect the
intended semantics of the associated text prompts. We examine cross-attention
layers in diffusion models and observe a propensity for these layers to
disproportionately focus on certain tokens during the generation process,
thereby undermining semantic fidelity. To address the issue of dominant
attention, we introduce attention regulation, a computation-efficient
on-the-fly optimization approach at inference time to align attention maps with
the input text prompt. Notably, our method requires no additional training or
fine-tuning and serves as a plug-in module on a model. Hence, the generation
capacity of the original model is fully preserved. We compare our approach with
alternative approaches across various datasets, evaluation metrics, and
diffusion models. Experiment results show that our method consistently
outperforms other baselines, yielding images that more faithfully reflect the
desired concepts with reduced computation overhead. Code is available at
https://github.com/YaNgZhAnG-V5/attention_regulation.
- Abstract(参考訳): 近年の拡散モデルの発展により,テキスト・画像合成作業における画像の知覚品質が向上した。
しかし拡散モデルは、しばしば関連するテキストプロンプトの意図した意味を正確に反映した画像を生成するのに苦労する。
拡散モデルにおけるクロスアテンション層を調べ,これらの層が生成過程において特定のトークンに不釣り合いに焦点を合わせ,意味的忠実性を損なう傾向を観察した。
そこで本研究では,アテンションマップを入力テキストプロンプトと整合させるために,アテンションレギュレーション(アテンションレギュレーション)という,オンザフライでの計算効率の高い最適化手法を導入する。
特にこの方法は,追加のトレーニングや微調整を必要とせず,モデルのプラグインモジュールとして機能する。
これにより、原モデルの生成能力は完全に保存される。
このアプローチを、さまざまなデータセット、評価指標、拡散モデルにまたがる代替アプローチと比較する。
実験の結果,提案手法は他のベースラインよりも一貫して優れており,計算オーバーヘッドの低減により望ましい概念をより忠実に反映する画像が得られることがわかった。
コードはhttps://github.com/yangzhang-v5/attention_ regulationで入手できる。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Enhancing Consistency-Based Image Generation via Adversarialy-Trained Classification and Energy-Based Discrimination [13.238373528922194]
本稿では,一貫性に基づく画像の生成を後処理する新しい手法を提案し,その知覚的品質を向上させる。
本手法では,両部位を逆向きに訓練する共同分類器-識別器モデルを用いる。
このジョイントマシンの指導の下で、サンプル特異的な投影勾配を用いることで、合成画像を洗練し、ImageNet 64x64データセット上でFIDスコアを改良した。
論文 参考訳(メタデータ) (2024-05-25T14:53:52Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Semantic Guidance Tuning for Text-To-Image Diffusion Models [3.3881449308956726]
本研究では,推論中の拡散モデルの誘導方向を変調する学習自由アプローチを提案する。
まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。
そこで本研究では,モデルが発散する概念に対して,誘導方向を制御するための手法を考案した。
論文 参考訳(メタデータ) (2023-12-26T09:02:17Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。