論文の概要: PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering
- arxiv url: http://arxiv.org/abs/2403.05053v2
- Date: Sat, 3 Aug 2024 05:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:26:29.687563
- Title: PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering
- Title(参考訳): PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散
- Authors: Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin,
- Abstract要約: 我々は、画像合成を主観的な局所的な編集タスクとして定式化し、前景生成にのみ焦点をあてる。
本研究では,様々なノイズレベルに対して注意制御を適切に設計することで,画像の合成を行う高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 13.785484396436367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition involves seamlessly integrating given objects into a specific visual context. Current training-free methods rely on composing attention weights from several samplers to guide the generator. However, since these weights are derived from disparate contexts, their combination leads to coherence confusion and loss of appearance information. These issues worsen with their excessive focus on background generation, even when unnecessary in this task. This not only impedes their swift implementation but also compromises foreground generation quality. Moreover, these methods introduce unwanted artifacts in the transition area. In this paper, we formulate image composition as a subject-based local editing task, solely focusing on foreground generation. At each step, the edited foreground is combined with the noisy background to maintain scene consistency. To address the remaining issues, we propose PrimeComposer, a faster training-free diffuser that composites the images by well-designed attention steering across different noise levels. This steering is predominantly achieved by our Correlation Diffuser, utilizing its self-attention layers at each step. Within these layers, the synthesized subject interacts with both the referenced object and background, capturing intricate details and coherent relationships. This prior information is encoded into the attention weights, which are then integrated into the self-attention layers of the generator to guide the synthesis process. Besides, we introduce a Region-constrained Cross-Attention to confine the impact of specific subject-related words to desired regions, addressing the unwanted artifacts shown in the prior method thereby further improving the coherence in the transition area. Our method exhibits the fastest inference efficiency and extensive experiments demonstrate our superiority both qualitatively and quantitatively.
- Abstract(参考訳): 画像合成は、与えられたオブジェクトを特定の視覚的コンテキストにシームレスに統合する。
現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。
しかし、これらの重みは異なる文脈から導かれるため、それらの組み合わせはコヒーレンス混乱と外観情報の喪失につながる。
これらの問題は、このタスクで不要であったとしても、バックグラウンド生成に過度に焦点を合わせることで悪化した。
これは、迅速な実装を阻害するだけでなく、前景の世代品質を損なう。
さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。
本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。
各ステップで、編集されたフォアグラウンドとノイズの多いバックグラウンドを組み合わせることで、シーンの一貫性を維持する。
残りの問題に対処するため,さまざまなノイズレベルに対して注意制御を適切に設計することで,画像を合成する高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
このステアリングは主に相関ディフューザによって実現され、各ステップで自己注意層を利用しています。
これらの層の中では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。
この前の情報はアテンション重みに符号化され、ジェネレータの自己アテンション層に統合され、合成プロセスが導かれる。
さらに、所望の領域に対する特定の主題関連単語の影響を抑えるために、領域制約付きクロスアテンションを導入し、先行手法で示される不要なアーティファクトに対処することにより、遷移領域におけるコヒーレンスをさらに改善する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
関連論文リスト
- Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation [22.949365270116335]
提案手法は,推論時間中に生成過程に介入するための学習不要な指導手法を提案する。
特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
論文 参考訳(メタデータ) (2024-05-11T08:11:25Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [13.785484396436367]
本稿では,グローバル・セマンティック・フュージョン(GSF)と自己相似機能拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Take a Prior from Other Tasks for Severe Blur Removal [52.380201909782684]
知識蒸留に基づくクロスレベル特徴学習戦略
多レベルアグリゲーションとセマンティックアテンション変換によるセマンティック事前埋め込み層を効果的に統合する。
GoProやRealBlurのデータセットのような、自然な画像劣化ベンチマークと実世界の画像の実験は、我々の方法の有効性と能力を実証している。
論文 参考訳(メタデータ) (2023-02-14T08:30:51Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。