Fugu-MT 論文翻訳(概要): PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering

論文の概要: PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering

arxiv url: http://arxiv.org/abs/2403.05053v2
Date: Sat, 3 Aug 2024 05:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:26:29.687563
Title: PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering
Title（参考訳）: PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散
Authors: Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin,
Abstract要約: 我々は、画像合成を主観的な局所的な編集タスクとして定式化し、前景生成にのみ焦点をあてる。本研究では,様々なノイズレベルに対して注意制御を適切に設計することで,画像の合成を行う高速なトレーニングフリーディフューザであるPrimeComposerを提案する。提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
参考スコア（独自算出の注目度）: 13.785484396436367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image composition involves seamlessly integrating given objects into a specific visual context. Current training-free methods rely on composing attention weights from several samplers to guide the generator. However, since these weights are derived from disparate contexts, their combination leads to coherence confusion and loss of appearance information. These issues worsen with their excessive focus on background generation, even when unnecessary in this task. This not only impedes their swift implementation but also compromises foreground generation quality. Moreover, these methods introduce unwanted artifacts in the transition area. In this paper, we formulate image composition as a subject-based local editing task, solely focusing on foreground generation. At each step, the edited foreground is combined with the noisy background to maintain scene consistency. To address the remaining issues, we propose PrimeComposer, a faster training-free diffuser that composites the images by well-designed attention steering across different noise levels. This steering is predominantly achieved by our Correlation Diffuser, utilizing its self-attention layers at each step. Within these layers, the synthesized subject interacts with both the referenced object and background, capturing intricate details and coherent relationships. This prior information is encoded into the attention weights, which are then integrated into the self-attention layers of the generator to guide the synthesis process. Besides, we introduce a Region-constrained Cross-Attention to confine the impact of specific subject-related words to desired regions, addressing the unwanted artifacts shown in the prior method thereby further improving the coherence in the transition area. Our method exhibits the fastest inference efficiency and extensive experiments demonstrate our superiority both qualitatively and quantitatively.
Abstract（参考訳）: 画像合成は、与えられたオブジェクトを特定の視覚的コンテキストにシームレスに統合する。現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。しかし、これらの重みは異なる文脈から導かれるため、それらの組み合わせはコヒーレンス混乱と外観情報の喪失につながる。これらの問題は、このタスクで不要であったとしても、バックグラウンド生成に過度に焦点を合わせることで悪化した。これは、迅速な実装を阻害するだけでなく、前景の世代品質を損なう。さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。各ステップで、編集されたフォアグラウンドとノイズの多いバックグラウンドを組み合わせることで、シーンの一貫性を維持する。残りの問題に対処するため,さまざまなノイズレベルに対して注意制御を適切に設計することで,画像を合成する高速なトレーニングフリーディフューザであるPrimeComposerを提案する。このステアリングは主に相関ディフューザによって実現され、各ステップで自己注意層を利用しています。これらの層の中では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。この前の情報はアテンション重みに符号化され、ジェネレータの自己アテンション層に統合され、合成プロセスが導かれる。さらに、所望の領域に対する特定の主題関連単語の影響を抑えるために、領域制約付きクロスアテンションを導入し、先行手法で示される不要なアーティファクトに対処することにより、遷移領域におけるコヒーレンスをさらに改善する。提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。

関連論文リスト

Multi-view Image Diffusion via Coordinate Noise and Fourier Attention [5.251293630298169]
本稿では,新しい注意機構と横断的注意損失を有する特徴の時間依存性空間周波数に対応する拡散過程を提案する。本手法は,多視点整合性に対する他の最先端手法と比較して,定性的に優れた結果が得られる数種類の定量的指標を用いてSOTAを改良する。
論文参考訳（メタデータ） (2024-12-04T22:49:40Z)
Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文参考訳（メタデータ） (2024-08-29T03:12:04Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation [22.949365270116335]
提案手法は,推論時間中に生成過程に介入するための学習不要な指導手法を提案する。特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
論文参考訳（メタデータ） (2024-05-11T08:11:25Z)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文参考訳（メタデータ） (2024-03-25T17:52:07Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
Take a Prior from Other Tasks for Severe Blur Removal [52.380201909782684]
知識蒸留に基づくクロスレベル特徴学習戦略多レベルアグリゲーションとセマンティックアテンション変換によるセマンティック事前埋め込み層を効果的に統合する。 GoProやRealBlurのデータセットのような、自然な画像劣化ベンチマークと実世界の画像の実験は、我々の方法の有効性と能力を実証している。
論文参考訳（メタデータ） (2023-02-14T08:30:51Z)
Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2020-11-04T06:12:24Z)
Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文参考訳（メタデータ） (2020-08-28T14:33:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。