論文の概要: Patch-enhanced Mask Encoder Prompt Image Generation
- arxiv url: http://arxiv.org/abs/2405.19085v1
- Date: Wed, 29 May 2024 13:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:00:54.898406
- Title: Patch-enhanced Mask Encoder Prompt Image Generation
- Title(参考訳): Patch-enhanced Mask Encoder Prompt Image Generation
- Authors: Shusong Xu, Peiye Liu,
- Abstract要約: 正確な製品記述を保証するために,パッチ強化マスクアプローチを提案する。
当社のアプローチは,Patch Flexible Visibility, Mask Prompt Adapter, Image Foundation Modelの3つのコンポーネントで構成されている。
実験により,本手法は,他の手法と比較して,最も高い視覚的結果とFIDスコアが得られることが示された。
- 参考スコア(独自算出の注目度): 0.8747606955991707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence Generated Content(AIGC), known for its superior visual results, represents a promising mitigation method for high-cost advertising applications. Numerous approaches have been developed to manipulate generated content under different conditions. However, a crucial limitation lies in the accurate description of products in advertising applications. Applying previous methods directly may lead to considerable distortion and deformation of advertised products, primarily due to oversimplified content control conditions. Hence, in this work, we propose a patch-enhanced mask encoder approach to ensure accurate product descriptions while preserving diverse backgrounds. Our approach consists of three components Patch Flexible Visibility, Mask Encoder Prompt Adapter and an image Foundation Model. Patch Flexible Visibility is used for generating a more reasonable background image. Mask Encoder Prompt Adapter enables region-controlled fusion. We also conduct an analysis of the structure and operational mechanisms of the Generation Module. Experimental results show our method can achieve the highest visual results and FID scores compared with other methods.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC、Artificial Intelligence Generated Content)は、高コスト広告アプリケーションにおいて有望な緩和手法である。
異なる条件下で生成されたコンテンツを操作するための多くのアプローチが開発されている。
しかし、重要な制限は、広告アプリケーションにおける製品の正確な説明にある。
従来の手法を直接適用すれば、広告商品の相当な歪みや変形につながる可能性がある。
そこで本研究では,様々な背景を保ちつつ,正確な製品記述を確実にするためのパッチ付きマスクエンコーダ手法を提案する。
本手法は,Patch Flexible Visibility, Mask Encoder Prompt Adapter, Image Foundation Modelの3つのコンポーネントで構成されている。
Patch Flexible Visibilityは、より合理的な背景画像を生成するために使用される。
Mask Encoder Prompt Adapterは、領域制御された融合を可能にする。
また,生成モジュールの構造と動作機構の解析を行う。
実験により,本手法は,他の手法と比較して,最も高い視覚的結果とFIDスコアが得られることが示された。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation [14.725538019917625]
拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
論文 参考訳(メタデータ) (2023-07-12T04:11:08Z) - Conditioning Diffusion Models via Attributes and Semantic Masks for Face
Generation [1.104121146441257]
深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。
GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、それでも出力を多様化する能力は欠けていた。
本稿では,属性とセマンティックマスクの両方を利用した多条件拡散モデルの提案を行い,高品質で制御可能な顔画像を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:16:37Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - Exploring the Effectiveness of Mask-Guided Feature Modulation as a
Mechanism for Localized Style Editing of Real Images [33.018300966769516]
本稿ではセマンティック・スタイル・オートエンコーダ(SSAE)について述べる。
この作業は,将来の作業のガイドプライマーとして機能する。
論文 参考訳(メタデータ) (2022-11-21T07:36:20Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z) - MagGAN: High-Resolution Face Attribute Editing with Mask-Guided
Generative Adversarial Network [145.4591079418917]
MagGANは、望ましい属性変更に関連する顔の部分のみを編集することを学ぶ。
各属性変更の影響領域をジェネレータに組み込むために、新しいマスク誘導条件付け戦略を導入する。
高解像度(1024×1024$)の顔編集のために,マルチレベルパッチワイド識別器構造を提案する。
論文 参考訳(メタデータ) (2020-10-03T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。