論文の概要: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- arxiv url: http://arxiv.org/abs/2407.17229v4
- Date: Fri, 11 Oct 2024 08:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:23:20.829318
- Title: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- Title(参考訳): アートインテリジェンス:高忠実景観絵画合成のための拡散型フレームワーク
- Authors: Wanggong Yang, Yifei Zhao,
- Abstract要約: LPGenはランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルである。
LPGenは、構造的およびスタイリスティックな特徴を独立して処理する分離されたクロスアテンションメカニズムを導入している。
モデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
- 参考スコア(独自算出の注目度): 2.205829309604458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-fidelity landscape paintings remains a challenging task that requires precise control over both structure and style. In this paper, we present LPGen, a novel diffusion-based model specifically designed for landscape painting generation. LPGen introduces a decoupled cross-attention mechanism that independently processes structural and stylistic features, effectively mimicking the layered approach of traditional painting techniques. Additionally, LPGen proposes a structural controller, a multi-scale encoder designed to control the layout of landscape paintings, striking a balance between aesthetics and composition. Besides, the model is pre-trained on a curated dataset of high-resolution landscape images, categorized by distinct artistic styles, and then fine-tuned to ensure detailed and consistent output. Through extensive evaluations, LPGen demonstrates superior performance in producing paintings that are not only structurally accurate but also stylistically coherent, surpassing current state-of-the-art models. This work advances AI-generated art and offers new avenues for exploring the intersection of technology and traditional artistic practices. Our code, dataset, and model weights will be publicly available.
- Abstract(参考訳): 高忠実な風景画の生成は、構造と様式の両方を正確に制御する必要がある難しい課題である。
本稿では,ランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルLPGenを提案する。
LPGenは、構造的特徴とスタイル的特徴を独立に処理し、従来の絵画技法の階層的アプローチを効果的に模倣する、分離された相互注意機構を導入している。
さらに、LPGenは、ランドスケープ絵画のレイアウトを制御するために設計されたマルチスケールエンコーダである構造制御器を提案し、美学と構成のバランスを損なう。
さらに、このモデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
LPGenは広範な評価を通じて、構造的に正確であるだけでなく、スタイリスティックに整合した絵画を製作する上で優れた性能を示し、現在の最先端のモデルを上回っている。
この研究はAI生成芸術を進歩させ、技術と伝統的な芸術的実践の交わりを探索するための新たな道を提供する。
コード、データセット、モデルの重み付けが公開されます。
関連論文リスト
- Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - Collaborative Neural Painting [27.880814775833578]
我々は,人間と機械の協調的な絵画作成を容易にする新しいタスク,CNP(Collaborative Neural Painting)を導入する。
CNPはコヒーレントな絵画の完成を支える一連のストロークを生成するべきである。
本研究では,パラメータ化されたストロークの列に基づく絵画表現を提案する。
論文 参考訳(メタデータ) (2023-12-04T10:45:12Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Advancing Urban Renewal: An Automated Approach to Generating Historical
Arcade Facades with Stable Diffusion Models [1.645684081891833]
本研究では,歴史的アーケードのファサード画像の自動生成手法を提案する。
様々なアーケードスタイルを分類・タグ付けすることで、現実的なアーケードファサード画像データセットを構築した。
提案手法は, 生成画像の高精度, 信頼性, 多様性を示すものである。
論文 参考訳(メタデータ) (2023-11-20T08:03:12Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z) - QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。
本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T17:09:53Z) - Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。
さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文 参考訳(メタデータ) (2021-11-17T08:11:42Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。