論文の概要: Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects
- arxiv url: http://arxiv.org/abs/2411.18936v1
- Date: Thu, 28 Nov 2024 05:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.713795
- Title: Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects
- Title(参考訳): 類似主題のテキスト・画像合成のための自己クロース拡散誘導
- Authors: Weimin Qiu, Jieke Wang, Meng Tang,
- Abstract要約: 本稿では,クロスアテンションマップとアグリゲートされた自己アテンションマップの重なり合いを罰する自己クロース拡散誘導法を提案する。
我々の指導は、最も差別的なものを超えた、主題のすべての関連するパッチの混合に対処する。
本手法はトレーニング不要であり,任意の変圧器を用いた拡散モデルの性能を向上させることができる。
- 参考スコア(独自算出の注目度): 1.419173007355272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have achieved unprecedented fidelity and diversity for synthesizing image, video, 3D assets, etc. However, subject mixing is a known and unresolved issue for diffusion-based image synthesis, particularly for synthesizing multiple similar-looking subjects. We propose Self-Cross diffusion guidance to penalize the overlap between cross-attention maps and aggregated self-attention maps. Compared to previous methods based on self-attention or cross-attention alone, our self-cross guidance is more effective in eliminating subject mixing. What's more, our guidance addresses mixing for all relevant patches of a subject beyond the most discriminant one, e.g., beak of a bird. We aggregate self-attention maps of automatically selected patches for a subject to form a region that the whole subject attends to. Our method is training-free and can boost the performance of any transformer-based diffusion model such as Stable Diffusion.% for synthesizing similar subjects. We also release a more challenging benchmark with many text prompts of similar-looking subjects and utilize GPT-4o for automatic and reliable evaluation. Extensive qualitative and quantitative results demonstrate the effectiveness of our Self-Cross guidance.
- Abstract(参考訳): 拡散モデルは、画像、ビデオ、3Dアセットなどの合成において、前例のない忠実さと多様性を達成した。
しかし、被写体混合は拡散に基づく画像合成の既知の未解決問題であり、特に類似した複数の被写体を合成するための問題である。
本稿では,クロスアテンションマップとアグリゲートされた自己アテンションマップの重なり合いを罰する自己クロース拡散誘導法を提案する。
従来の自己注意法やクロスアテンション法と比べ,自己クロス指導法の方が被験者混合の除去に有効である。
さらに、私たちのガイダンスは、最も識別しやすいもの、例えば、鳥のくちばし以外の、被検体のすべての関連するパッチを混ぜることに対処します。
我々は、被験者が出席する領域を形成するために、自動的に選択されたパッチの自己注意マップを集約する。
本手法はトレーニング不要であり,安定拡散などの変圧器を用いた拡散モデルの性能を向上させることができる。
%であった。
また、類似した被験者のテキストプロンプトを多く含むより困難なベンチマークを公開し、自動的かつ信頼性の高い評価にGPT-4oを利用する。
定性的かつ定量的な結果は,我々のセルフクロス指導の有効性を示すものである。
関連論文リスト
- Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection [28.82743020243849]
既存のテキストと画像の拡散モデルは、しばしば挑戦的なプロンプトに対して高い画質と高いプロンプトのアライメントを維持するのに失敗する。
本稿では, 交互に denoising と inversion を行う拡散自己回帰法を提案する。
我々は,新しい自己反射型拡散サンプリング法であるZigzag Diffusion Smpling (Z-Sampling) を導出した。
論文 参考訳(メタデータ) (2024-12-14T16:42:41Z) - Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification [6.442738337380714]
拡散に基づくDA法は,高品質なサンプルを生成する上で重要な2つの鍵である忠実さと多様性の両方を考慮できない。
拡散に基づく新しいDA法Diff-IIを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:05:02Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly
Detection [15.212031255539022]
異常検出(AD)はコンピュータビジョンの基本課題である。
そこで我々は,サリエンシガイダンスを活用して意味的手がかりを付加するCutSwapを提案する。
CutSwapは、2つの主流ADベンチマークデータセット上で最先端のADパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T08:03:53Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T13:50:58Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。