論文の概要: Creative Painting with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.14697v1
- Date: Thu, 29 Sep 2022 11:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:42:25.001878
- Title: Creative Painting with Latent Diffusion Models
- Title(参考訳): 潜在拡散モデルによる創作絵画
- Authors: Xianchao Wu
- Abstract要約: 近年、芸術絵画は数百種類のGANを応用して大きな進歩を遂げている。
近年の拡散モデルでは, 対向訓練を伴わずに GAN レベルのサンプル品質が達成されている。
本稿では,現在の潜伏拡散モデルにおける2方向の創造的絵画能力の向上に焦点をあてる。
- 参考スコア(独自算出の注目度): 1.4649095013539173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artistic painting has achieved significant progress during recent years by
applying hundreds of GAN variants. However, adversarial training has been
reported to be notoriously unstable and can lead to mode collapse. Recently,
diffusion models have achieved GAN-level sample quality without adversarial
training. Using autoencoders to project the original images into compressed
latent spaces and cross attention enhanced U-Net as the backbone of diffusion,
latent diffusion models have achieved stable and high fertility image
generation. In this paper, we focus on enhancing the creative painting ability
of current latent diffusion models in two directions, textual condition
extension and model retraining with Wikiart dataset. Through textual condition
extension, users' input prompts are expanded in temporal and spacial directions
for deeper understanding and explaining the prompts. Wikiart dataset contains
80K famous artworks drawn during recent 400 years by more than 1,000 famous
artists in rich styles and genres. Through the retraining, we are able to ask
these artists to draw novel and creative painting on modern topics.
- Abstract(参考訳): 近年、芸術絵画は数百種類のGANを応用して大きな進歩を遂げている。
しかし、敵対的な訓練は不安定でモードが崩壊する可能性があると報告されている。
近年,拡散モデルが逆訓練なしでganレベルのサンプル品質を達成している。
オートエンコーダが圧縮された潜在空間に元の画像を投影し、クロス注意がu-netを拡散のバックボーンとして拡張することで、潜在拡散モデルは安定して高い不妊像生成を達成している。
本稿では,現在潜伏拡散モデルにおける2つの方向,テキスト条件拡張とWikiartデータセットによるモデル再構成の創造的描画能力の向上に焦点をあてる。
テキスト条件拡張により、ユーザの入力プロンプトは時間的および空間的方向に拡張され、プロンプトの理解と説明が深まる。
Wikiartのデータセットには、最近400年間に1000人以上の有名アーティストによって描かれた80万点の有名なアートワークが含まれている。
再訓練を通じて、これらのアーティストに現代トピックに関する斬新で創造的な絵を描くよう依頼することができる。
関連論文リスト
- CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image
Inpainting with Diffusion Models [62.53428849502191]
HD-Painterはトレーニング不要のアプローチで、プロンプトとコヒーレントなスケールで高解像度画像のインペイントを行う。
本稿では,Prompt-Aware Introverted Attention (PAIntA) レイヤについて紹介する。
また,ポストホックサンプリング戦略をDDIMの一般的な形式にシームレスに統合するRASG(Reweighting Attention Score Guidance)機構を導入する。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - Composite Diffusion | whole >= \Sigma parts [0.0]
本稿では,サブシーンからの合成により,アーティストが高品質な画像を生成する手段として,複合拡散を導入する。
サブシーンの生成, 構成, 調和の代替手段を可能にする, 複合拡散の包括的かつモジュラーな方法を提案する。
論文 参考訳(メタデータ) (2023-07-25T17:58:43Z) - Towards mapping the contemporary art world with ArtLM: an art-specific
NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。
広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。
また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文 参考訳(メタデータ) (2022-12-14T09:26:07Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。
私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文 参考訳(メタデータ) (2020-12-02T16:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。