論文の概要: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
- arxiv url: http://arxiv.org/abs/2407.17229v1
- Date: Wed, 24 Jul 2024 12:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:54:30.606132
- Title: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
- Title(参考訳): LPGen:拡散モデルによる高忠実景観絵画の創出
- Authors: Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao,
- Abstract要約: 本稿では,ランドスケープ・ペインティング・ジェネレーションのための高忠実かつ制御可能なモデルLPGenを提案する。
拡散モデルに画像プロンプトを統合する新しいマルチモーダルフレームワークを提案する。
我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。
- 参考スコア(独自算出の注目度): 1.7966001353008776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
- Abstract(参考訳): 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。
伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。
これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。
本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。
対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。
これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。
我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。
デコーダは最終画像を生成する。
定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。
LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。
関連論文リスト
- Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - Collaborative Neural Painting [27.880814775833578]
我々は,人間と機械の協調的な絵画作成を容易にする新しいタスク,CNP(Collaborative Neural Painting)を導入する。
CNPはコヒーレントな絵画の完成を支える一連のストロークを生成するべきである。
本研究では,パラメータ化されたストロークの列に基づく絵画表現を提案する。
論文 参考訳(メタデータ) (2023-12-04T10:45:12Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Advancing Urban Renewal: An Automated Approach to Generating Historical
Arcade Facades with Stable Diffusion Models [1.645684081891833]
本研究では,歴史的アーケードのファサード画像の自動生成手法を提案する。
様々なアーケードスタイルを分類・タグ付けすることで、現実的なアーケードファサード画像データセットを構築した。
提案手法は, 生成画像の高精度, 信頼性, 多様性を示すものである。
論文 参考訳(メタデータ) (2023-11-20T08:03:12Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z) - QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。
本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T17:09:53Z) - Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。
さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文 参考訳(メタデータ) (2021-11-17T08:11:42Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。