論文の概要: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- arxiv url: http://arxiv.org/abs/2407.17229v4
- Date: Fri, 11 Oct 2024 08:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:21.098980
- Title: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
- Title(参考訳): アートインテリジェンス:高忠実景観絵画合成のための拡散型フレームワーク
- Authors: Wanggong Yang, Yifei Zhao,
- Abstract要約: LPGenはランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルである。
LPGenは、構造的およびスタイリスティックな特徴を独立して処理する分離されたクロスアテンションメカニズムを導入している。
モデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
- 参考スコア(独自算出の注目度): 2.205829309604458
- License:
- Abstract: Generating high-fidelity landscape paintings remains a challenging task that requires precise control over both structure and style. In this paper, we present LPGen, a novel diffusion-based model specifically designed for landscape painting generation. LPGen introduces a decoupled cross-attention mechanism that independently processes structural and stylistic features, effectively mimicking the layered approach of traditional painting techniques. Additionally, LPGen proposes a structural controller, a multi-scale encoder designed to control the layout of landscape paintings, striking a balance between aesthetics and composition. Besides, the model is pre-trained on a curated dataset of high-resolution landscape images, categorized by distinct artistic styles, and then fine-tuned to ensure detailed and consistent output. Through extensive evaluations, LPGen demonstrates superior performance in producing paintings that are not only structurally accurate but also stylistically coherent, surpassing current state-of-the-art models. This work advances AI-generated art and offers new avenues for exploring the intersection of technology and traditional artistic practices. Our code, dataset, and model weights will be publicly available.
- Abstract(参考訳): 高忠実な風景画の生成は、構造と様式の両方を正確に制御する必要がある難しい課題である。
本稿では,ランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルLPGenを提案する。
LPGenは、構造的特徴とスタイル的特徴を独立に処理し、従来の絵画技法の階層的アプローチを効果的に模倣する、分離された相互注意機構を導入している。
さらに、LPGenは、ランドスケープ絵画のレイアウトを制御するために設計されたマルチスケールエンコーダである構造制御器を提案し、美学と構成のバランスを損なう。
さらに、このモデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
LPGenは広範な評価を通じて、構造的に正確であるだけでなく、スタイリスティックに整合した絵画を製作する上で優れた性能を示し、現在の最先端のモデルを上回っている。
この研究はAI生成芸術を進歩させ、技術と伝統的な芸術的実践の交わりを探索するための新たな道を提供する。
コード、データセット、モデルの重み付けが公開されます。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - DLP-GAN: learning to draw modern Chinese landscape photos with
generative adversarial network [20.74857981451259]
中国の風景画は独特で芸術的な様式であり、その画法は色と現実的な物体表現の両方において非常に抽象的である。
従来は、近代の絵から古代の墨画への移行に焦点が当てられていたが、風景画を近代の絵に翻訳することにはほとんど関心が向けられていない。
論文 参考訳(メタデータ) (2024-03-06T04:46:03Z) - HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - FigGen: Text to Scientific Figure Generation [9.091505857494681]
本稿では,テキスト記述から論文の科学的数値を生成するテキスト・ツー・フィギュア生成の問題を紹介する。
本稿では,テキスト・ツー・フィギュアの拡散に基づくアプローチであるFigGenについて紹介する。
論文 参考訳(メタデータ) (2023-06-01T15:28:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal
Guidance [40.488455270651684]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。
UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。
UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-10-28T10:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。