論文の概要: Training-Free Style Consistent Image Synthesis with Condition and Mask Guidance in E-Commerce
- arxiv url: http://arxiv.org/abs/2409.04750v1
- Date: Sat, 7 Sep 2024 07:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:51:37.490494
- Title: Training-Free Style Consistent Image Synthesis with Condition and Mask Guidance in E-Commerce
- Title(参考訳): Eコマースにおける条件とマスクガイダンスを用いた学習自由スタイル一貫性画像合成
- Authors: Guandong Li,
- Abstract要約: 我々は、UNetと画像条件を統合する際に、注意マップ(自己注意と横断注意)の修正を参照して、QKVレベルの概念を導入する。
我々は、共有KVを用いて、交差注意における類似性を高め、注目マップからマスクガイダンスを生成し、スタイル一貫性画像の生成を巧みに指示する。
- 参考スコア(独自算出の注目度): 13.67619785783182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating style-consistent images is a common task in the e-commerce field, and current methods are largely based on diffusion models, which have achieved excellent results. This paper introduces the concept of the QKV (query/key/value) level, referring to modifications in the attention maps (self-attention and cross-attention) when integrating UNet with image conditions. Without disrupting the product's main composition in e-commerce images, we aim to use a train-free method guided by pre-set conditions. This involves using shared KV to enhance similarity in cross-attention and generating mask guidance from the attention map to cleverly direct the generation of style-consistent images. Our method has shown promising results in practical applications.
- Abstract(参考訳): スタイル一貫性のある画像を生成することはeコマース分野では一般的な課題であり、現在の手法は拡散モデルに基づいており、優れた成果を上げている。
本稿では、UNetと画像条件を統合する際の注意マップ(自己注意と相互注意)の変更を参考に、QKV(query/key/value)レベルの概念を紹介する。
電子商取引画像のメインコンポジションを損なうことなく、予め設定された条件で案内された列車フリーの手法を応用することを目指す。
これは、共有KVを使用して、交差注意における類似性を高め、注意マップからマスクガイダンスを生成し、スタイル一貫性画像の生成を巧みに指示する。
本手法は実用化に有望な結果を示した。
関連論文リスト
- Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Collaborative Image Understanding [5.5174379874002435]
我々は,新しい画像の分類プロセスを改善するために,協調的な情報を活用することができることを示す。
電子商取引とソーシャルメディアのデータセットに関する一連の実験は、協調的な信号を考えることで、画像分類の主要なタスクのパフォーマンスが最大9.1%向上することを示した。
論文 参考訳(メタデータ) (2022-10-21T12:13:08Z) - SCS-Co: Self-Consistent Style Contrastive Learning for Image
Harmonization [29.600429707123645]
画像調和のための自己整合型コントラスト学習方式(SCS-Co)を提案する。
複数の負のサンプルを動的に生成することにより、SCS-Coはより歪みの少ない知識を学習し、生成した調和像を適切に正規化することができる。
さらに,注目度の高い背景特徴分布を実現するために,背景アテンショナル適応型インスタンス正規化(BAIN)を提案する。
論文 参考訳(メタデータ) (2022-04-29T09:22:01Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。