論文の概要: PARASOL: Parametric Style Control for Diffusion Image Synthesis
- arxiv url: http://arxiv.org/abs/2303.06464v2
- Date: Mon, 27 Mar 2023 17:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 23:56:02.629398
- Title: PARASOL: Parametric Style Control for Diffusion Image Synthesis
- Title(参考訳): PARASOL:拡散画像合成のためのパラメトリックスタイル制御
- Authors: Gemma Canet Tarr\'es, Dan Ruta, Tu Bui, John Collomosse
- Abstract要約: PARASOLはマルチモーダル合成モデルであり、画像の視覚スタイルの非交叉パラメトリック制御を可能にする。
補助的セマンティクスとスタイルに基づく探索を活用して、潜伏拡散モデルの教師のためのトレーニング三重項を作成する。
- 参考スコア(独自算出の注目度): 10.995279506765335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PARASOL, a multi-modal synthesis model that enables disentangled,
parametric control of the visual style of the image by jointly conditioning
synthesis on both content and a fine-grained visual style embedding. We train a
latent diffusion model (LDM) using specific losses for each modality and adapt
the classifier-free guidance for encouraging disentangled control over
independent content and style modalities at inference time. We leverage
auxiliary semantic and style-based search to create training triplets for
supervision of the LDM, ensuring complementarity of content and style cues.
PARASOL shows promise for enabling nuanced control over visual style in
diffusion models for image creation and stylization, as well as generative
search where text-based search results may be adapted to more closely match
user intent by interpolating both content and style descriptors.
- Abstract(参考訳): 両コンテンツと微細な視覚スタイルの埋め込みを共同で条件付けすることで、画像の視覚スタイルの非交叉パラメトリック制御を可能にするマルチモーダル合成モデルであるPARASOLを提案する。
我々は,各モダリティの特定の損失を用いて潜在拡散モデル(ldm)を訓練し,分類器フリーのガイダンスを適用し,独立コンテンツと推論時のスタイルモダリティに対する不連続制御を奨励する。
補助的なセマンティクスとスタイルに基づく検索を活用して,コンテンツとスタイルの相補性を保証し,LDMの監督のためのトレーニング三つ子を作成する。
PARASOLは、画像生成とスタイリゼーションのための拡散モデルにおける視覚スタイルのニュアンス制御を可能にするとともに、テキストベースの検索結果を、コンテンツとスタイル記述子の両方を補間することによって、より密にユーザ意図に適合させることができる生成検索を可能にする。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control [43.96257216397601]
拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションを提案する。
RB-Modulationは、スタイル記述子が所望の属性をエンコードする新しい最適コントローラ上に構築されている。
クロスアテンションに基づく特徴集約方式により、RB変調は参照画像から内容とスタイルを分離することができる。
論文 参考訳(メタデータ) (2024-05-27T17:51:08Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Learning Graph Neural Networks for Image Style Transfer [131.73237185888215]
最先端のパラメトリックおよび非パラメトリックなスタイル転送アプローチは、グローバルな統計アライメントによる局所的なスタイルパターンの歪んだり、パッチミスマッチによるアーティファクトを減らしたりする傾向にある。
本稿では,パラメトリック型と非パラメトリック型の両方のスタイライゼーションの欠如を緩和する,新しい半パラメトリック型ニューラルスタイルトランスファーフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-24T07:41:31Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Diagonal Attention and Style-based GAN for Content-Style Disentanglement
in Image Generation and Translation [34.24876359759408]
階層的適応型対角的空間アテンション層を新規に提示し,スタイルから空間内容を階層的に操作する。
空間内容やスタイルを粗小から微妙に切り離す手法です。
我々のジェネレータはganインバージョンフレームワークに容易に統合でき、翻訳画像の内容やスタイルを柔軟に制御できます。
論文 参考訳(メタデータ) (2021-03-30T08:00:13Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。