論文の概要: Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects
- arxiv url: http://arxiv.org/abs/2411.18936v1
- Date: Thu, 28 Nov 2024 05:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:17.774502
- Title: Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects
- Title(参考訳): 類似主題のテキスト・画像合成のための自己クロース拡散誘導
- Authors: Weimin Qiu, Jieke Wang, Meng Tang,
- Abstract要約: 本稿では,クロスアテンションマップとアグリゲートされた自己アテンションマップの重なり合いを罰する自己クロース拡散誘導法を提案する。
我々の指導は、最も差別的なものを超えた、主題のすべての関連するパッチの混合に対処する。
本手法はトレーニング不要であり,任意の変圧器を用いた拡散モデルの性能を向上させることができる。
- 参考スコア(独自算出の注目度): 1.419173007355272
- License:
- Abstract: Diffusion models have achieved unprecedented fidelity and diversity for synthesizing image, video, 3D assets, etc. However, subject mixing is a known and unresolved issue for diffusion-based image synthesis, particularly for synthesizing multiple similar-looking subjects. We propose Self-Cross diffusion guidance to penalize the overlap between cross-attention maps and aggregated self-attention maps. Compared to previous methods based on self-attention or cross-attention alone, our self-cross guidance is more effective in eliminating subject mixing. What's more, our guidance addresses mixing for all relevant patches of a subject beyond the most discriminant one, e.g., beak of a bird. We aggregate self-attention maps of automatically selected patches for a subject to form a region that the whole subject attends to. Our method is training-free and can boost the performance of any transformer-based diffusion model such as Stable Diffusion.% for synthesizing similar subjects. We also release a more challenging benchmark with many text prompts of similar-looking subjects and utilize GPT-4o for automatic and reliable evaluation. Extensive qualitative and quantitative results demonstrate the effectiveness of our Self-Cross guidance.
- Abstract(参考訳): 拡散モデルは、画像、ビデオ、3Dアセットなどの合成において、前例のない忠実さと多様性を達成した。
しかし、被写体混合は拡散に基づく画像合成の既知の未解決問題であり、特に類似した複数の被写体を合成するための問題である。
本稿では,クロスアテンションマップとアグリゲートされた自己アテンションマップの重なり合いを罰する自己クロース拡散誘導法を提案する。
従来の自己注意法やクロスアテンション法と比べ,自己クロス指導法の方が被験者混合の除去に有効である。
さらに、私たちのガイダンスは、最も識別しやすいもの、例えば、鳥のくちばし以外の、被検体のすべての関連するパッチを混ぜることに対処します。
我々は、被験者が出席する領域を形成するために、自動的に選択されたパッチの自己注意マップを集約する。
本手法はトレーニング不要であり,安定拡散などの変圧器を用いた拡散モデルの性能を向上させることができる。
%であった。
また、類似した被験者のテキストプロンプトを多く含むより困難なベンチマークを公開し、自動的かつ信頼性の高い評価にGPT-4oを利用する。
定性的かつ定量的な結果は,我々のセルフクロス指導の有効性を示すものである。
関連論文リスト
- DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
そして、学習したアーティファクト検出器を第2段階に巻き込み、各画像に画素ごとの信頼マップを割り当てて拡散モデルをチューニングする。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance [19.221431052643222]
本稿では,テキストと画像の拡散モデルに対して,複雑な場面における各主題間の相互干渉に対処するための一般的なアプローチを提案する。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
論文 参考訳(メタデータ) (2024-03-25T17:16:27Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリーと3つの広く分布する雑草種を利用した。
安定拡散に基づく3つの手法(画像から画像への変換,ドリームブース,コントロールネット)を,焦点の異なる画像生成に利用した。
そして、これらの合成画像に基づいて分類・検出タスクを行い、その性能を原画像で訓練されたモデルと比較した。
論文 参考訳(メタデータ) (2023-12-07T02:23:32Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。