論文の概要: Customize StyleGAN with One Hand Sketch
- arxiv url: http://arxiv.org/abs/2310.18949v1
- Date: Sun, 29 Oct 2023 09:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:14:39.412772
- Title: Customize StyleGAN with One Hand Sketch
- Title(参考訳): 片手スケッチによるスタイルGANのカスタマイズ
- Authors: Shaocong Zhang
- Abstract要約: 本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from human sketches typically requires dedicated networks
trained from scratch. In contrast, the emergence of the pre-trained
Vision-Language models (e.g., CLIP) has propelled generative applications based
on controlling the output imagery of existing StyleGAN models with text inputs
or reference images. Parallelly, our work proposes a framework to control
StyleGAN imagery with a single user sketch. In particular, we learn a
conditional distribution in the latent space of a pre-trained StyleGAN model
via energy-based learning and propose two novel energy functions leveraging
CLIP for cross-domain semantic supervision. Once trained, our model can
generate multi-modal images semantically aligned with the input sketch.
Quantitative evaluations on synthesized datasets have shown that our approach
improves significantly from previous methods in the one-shot regime. The
superiority of our method is further underscored when experimenting with a wide
range of human sketches of diverse styles and poses. Surprisingly, our models
outperform the previous baseline regarding both the range of sketch inputs and
image qualities despite operating with a stricter setting: with no extra
training data and single sketch input.
- Abstract(参考訳): 人間のスケッチから画像を生成するには、通常、スクラッチからトレーニングされた専用ネットワークが必要です。
対照的に、事前訓練されたビジョンランゲージモデル(例えばCLIP)の出現は、テキスト入力や参照画像による既存のStyleGANモデルの出力画像の制御に基づいて、生成アプリケーションを推進してきた。
また,本研究では,単一ユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
特に,事前学習したStyleGANモデルの潜在空間における条件分布をエネルギーベース学習により学習し,CLIPを利用した2つの新しいエネルギー関数を提案する。
トレーニングを済ませば、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
合成データセットの定量的評価により, 従来手法とは大きく改善されていることが示された。
本手法の優位性は,多様なスタイルやポーズの幅広い人間のスケッチを実験する場合にさらに強調される。
驚くべきことに、我々のモデルは、より厳格な設定で動作しているにもかかわらず、スケッチ入力の範囲と画像品質の両方について、以前のベースラインよりも優れています。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Reference-based Image Composition with Sketch via Structure-aware
Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。
スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。
筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文 参考訳(メタデータ) (2023-03-31T06:12:58Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Style-Content Disentanglement in Language-Image Pretraining
Representations for Zero-Shot Sketch-to-Image Synthesis [0.0]
パラメータを(再)学習することなく,画像生成器をスケッチ・ツー・イメージ生成器として利用するために,コンテンツとスタイル表現のアンタングル化が可能であることを示す。
提案手法は,入力スケッチの表現における情報の構成性を仮定する算術初等演算からなる簡易な手法である。
論文 参考訳(メタデータ) (2022-06-03T16:14:37Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Sketch Your Own GAN [36.77647431087615]
本稿では1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。
我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。
提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズに適合するGANを成形できることを示した。
論文 参考訳(メタデータ) (2021-08-05T17:59:42Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。