論文の概要: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
- arxiv url: http://arxiv.org/abs/2407.17229v2
- Date: Thu, 25 Jul 2024 09:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 12:59:24.420678
- Title: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
- Title(参考訳): LPGen:拡散モデルによる高忠実景観絵画の創出
- Authors: Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao,
- Abstract要約: 本稿では,ランドスケープ・ペインティング・ジェネレーションのための高忠実かつ制御可能なモデルLPGenを提案する。
拡散モデルに画像プロンプトを統合する新しいマルチモーダルフレームワークを提案する。
我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。
- 参考スコア(独自算出の注目度): 1.7966001353008776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
- Abstract(参考訳): 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。
伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。
これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。
本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。
対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。
これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。
我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。
デコーダは最終画像を生成する。
定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。
LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。
関連論文リスト
- Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model [8.938617090786494]
複雑な外観を詳細な設計図に転送するフレームワークであるLineArtを紹介する。
階層的な視覚認知をシミュレートすることで、構造的精度を維持しつつ、高忠実な外観を生成する。
正確な3Dモデリング、物理的特性仕様、ネットワークトレーニングは必要とせず、設計作業に便利である。
論文 参考訳(メタデータ) (2024-12-16T07:54:45Z) - A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。
このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文 参考訳(メタデータ) (2024-12-07T19:10:29Z) - Diffusion Models with Anisotropic Gaussian Splatting for Image Inpainting [0.0]
本研究では,拡散モデルと異方性ガウススプラッティングを組み合わせ,局所構造とグローバルコンテキストの両方を効果的に捉える新しい塗装法を提案する。
提案手法は最先端技術より優れ, 構造的整合性とテクスチャリアリズムを向上した視覚的可視性のある結果が得られる。
論文 参考訳(メタデータ) (2024-12-02T16:29:06Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z) - QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。
本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T17:09:53Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。