論文の概要: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- arxiv url: http://arxiv.org/abs/2407.17229v4
- Date: Fri, 11 Oct 2024 08:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:23:20.829318
- Title: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- Title(参考訳): アートインテリジェンス:高忠実景観絵画合成のための拡散型フレームワーク
- Authors: Wanggong Yang, Yifei Zhao,
- Abstract要約: LPGenはランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルである。
LPGenは、構造的およびスタイリスティックな特徴を独立して処理する分離されたクロスアテンションメカニズムを導入している。
モデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
- 参考スコア(独自算出の注目度): 2.205829309604458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-fidelity landscape paintings remains a challenging task that requires precise control over both structure and style. In this paper, we present LPGen, a novel diffusion-based model specifically designed for landscape painting generation. LPGen introduces a decoupled cross-attention mechanism that independently processes structural and stylistic features, effectively mimicking the layered approach of traditional painting techniques. Additionally, LPGen proposes a structural controller, a multi-scale encoder designed to control the layout of landscape paintings, striking a balance between aesthetics and composition. Besides, the model is pre-trained on a curated dataset of high-resolution landscape images, categorized by distinct artistic styles, and then fine-tuned to ensure detailed and consistent output. Through extensive evaluations, LPGen demonstrates superior performance in producing paintings that are not only structurally accurate but also stylistically coherent, surpassing current state-of-the-art models. This work advances AI-generated art and offers new avenues for exploring the intersection of technology and traditional artistic practices. Our code, dataset, and model weights will be publicly available.
- Abstract(参考訳): 高忠実な風景画の生成は、構造と様式の両方を正確に制御する必要がある難しい課題である。
本稿では,ランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルLPGenを提案する。
LPGenは、構造的特徴とスタイル的特徴を独立に処理し、従来の絵画技法の階層的アプローチを効果的に模倣する、分離された相互注意機構を導入している。
さらに、LPGenは、ランドスケープ絵画のレイアウトを制御するために設計されたマルチスケールエンコーダである構造制御器を提案し、美学と構成のバランスを損なう。
さらに、このモデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
LPGenは広範な評価を通じて、構造的に正確であるだけでなく、スタイリスティックに整合した絵画を製作する上で優れた性能を示し、現在の最先端のモデルを上回っている。
この研究はAI生成芸術を進歩させ、技術と伝統的な芸術的実践の交わりを探索するための新たな道を提供する。
コード、データセット、モデルの重み付けが公開されます。
関連論文リスト
- Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model [8.938617090786494]
複雑な外観を詳細な設計図に転送するフレームワークであるLineArtを紹介する。
階層的な視覚認知をシミュレートすることで、構造的精度を維持しつつ、高忠実な外観を生成する。
正確な3Dモデリング、物理的特性仕様、ネットワークトレーニングは必要とせず、設計作業に便利である。
論文 参考訳(メタデータ) (2024-12-16T07:54:45Z) - A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。
このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文 参考訳(メタデータ) (2024-12-07T19:10:29Z) - Diffusion Models with Anisotropic Gaussian Splatting for Image Inpainting [0.0]
本研究では,拡散モデルと異方性ガウススプラッティングを組み合わせ,局所構造とグローバルコンテキストの両方を効果的に捉える新しい塗装法を提案する。
提案手法は最先端技術より優れ, 構造的整合性とテクスチャリアリズムを向上した視覚的可視性のある結果が得られる。
論文 参考訳(メタデータ) (2024-12-02T16:29:06Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z) - QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。
本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T17:09:53Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。