論文の概要: PrimeComposer: Faster Progressively Combined Diffusion for Image
Composition with Attention Steering
- arxiv url: http://arxiv.org/abs/2403.05053v1
- Date: Fri, 8 Mar 2024 04:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:55:30.136964
- Title: PrimeComposer: Faster Progressively Combined Diffusion for Image
Composition with Attention Steering
- Title(参考訳): PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散
- Authors: Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin
- Abstract要約: 我々は、画像合成を主観的な局所的な編集タスクとして定式化し、前景生成にのみ焦点をあてる。
本研究では,様々なノイズレベルに対して注意制御を適切に設計することで,画像の合成を行う高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 15.059651360660073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition involves seamlessly integrating given objects into a
specific visual context. The current training-free methods rely on composing
attention weights from several samplers to guide the generator. However, since
these weights are derived from disparate contexts, their combination leads to
coherence confusion in synthesis and loss of appearance information. These
issues worsen with their excessive focus on background generation, even when
unnecessary in this task. This not only slows down inference but also
compromises foreground generation quality. Moreover, these methods introduce
unwanted artifacts in the transition area. In this paper, we formulate image
composition as a subject-based local editing task, solely focusing on
foreground generation. At each step, the edited foreground is combined with the
noisy background to maintain scene consistency. To address the remaining
issues, we propose PrimeComposer, a faster training-free diffuser that
composites the images by well-designed attention steering across different
noise levels. This steering is predominantly achieved by our Correlation
Diffuser, utilizing its self-attention layers at each step. Within these
layers, the synthesized subject interacts with both the referenced object and
background, capturing intricate details and coherent relationships. This prior
information is encoded into the attention weights, which are then integrated
into the self-attention layers of the generator to guide the synthesis process.
Besides, we introduce a Region-constrained Cross-Attention to confine the
impact of specific subject-related words to desired regions, addressing the
unwanted artifacts shown in the prior method thereby further improving the
coherence in the transition area. Our method exhibits the fastest inference
efficiency and extensive experiments demonstrate our superiority both
qualitatively and quantitatively.
- Abstract(参考訳): 画像合成は、与えられたオブジェクトを特定のビジュアルコンテキストにシームレスに統合する。
現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。
しかし、これらの重みは異なる文脈に由来するため、それらの組み合わせは合成におけるコヒーレンス混乱と外観情報の喪失につながる。
これらの問題は、たとえこのタスクで不要であったとしても、バックグラウンド生成への過度な集中によって悪化する。
これは推論を遅くするだけでなく、前景の世代品質を損なう。
さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。
本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。
各ステップでは、編集前景と雑音背景を組み合わせることで、シーンの一貫性を維持する。
残りの問題に対処するために,様々なノイズレベルにまたがる注意ステアリングによって画像を合成する,より高速なトレーニングフリーディフューザであるprimecomposerを提案する。
このステアリングは主に相関ディフューザによって達成され、各ステップで自己着脱層を利用する。
これらの層内では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。
この先行情報は注意重みにエンコードされ、合成プロセスを導くためにジェネレータのセルフアテンション層に統合される。
また、特定の主題関連単語が所望の領域に与える影響を限定するために、先行手法で示される望ましくないアーティファクトに対処し、遷移領域の一貫性をさらに向上させる領域制約付きクロスアテンションを導入する。
提案手法は最も高速な推論効率を示し,定性的かつ定量的に優位性を示す。
関連論文リスト
- Repositioning the Subject within Image [56.60660775884127]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [27.229599030825643]
本稿では,テキストプロンプトと空間レイアウトの両面に整合した高品質な画像の生成に優れるレイアウト・ツー・イメージ合成のトレーニング不要な手法を提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、パフォーマンスを大幅に向上し、以前のメソッドで観測されたセマンティックな障害に効果的に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [15.059651360660073]
本稿では,グローバル・セマンティック・フュージョン(GSF)と自己相似機能拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image
Editing [8.19063619210761]
PFB-Diffは拡散に基づく画像編集のためのプログレッシブ・フィーチャーブレンディング法である。
本手法は, 画像の忠実度, 編集精度, 効率, 忠実度において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-28T11:10:20Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Take a Prior from Other Tasks for Severe Blur Removal [52.380201909782684]
知識蒸留に基づくクロスレベル特徴学習戦略
多レベルアグリゲーションとセマンティックアテンション変換によるセマンティック事前埋め込み層を効果的に統合する。
GoProやRealBlurのデータセットのような、自然な画像劣化ベンチマークと実世界の画像の実験は、我々の方法の有効性と能力を実証している。
論文 参考訳(メタデータ) (2023-02-14T08:30:51Z) - Level-aware Haze Image Synthesis by Self-Supervised Content-Style
Disentanglement [56.99803235546565]
逆行訓練によるhaze画像翻訳の鍵となる手順は、haze合成にのみ関与する特徴、すなわちスタイル特徴と不変意味コンテンツを表す特徴、すなわちそれらの特徴との間にある。
コンテンツ機能。
論文 参考訳(メタデータ) (2021-03-11T06:53:18Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。