Fugu-MT 論文翻訳(概要): Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis

論文の概要: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis

arxiv url: http://arxiv.org/abs/2407.17229v4
Date: Fri, 11 Oct 2024 08:48:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 15:23:20.829318
Title: Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis
Title（参考訳）: アートインテリジェンス:高忠実景観絵画合成のための拡散型フレームワーク
Authors: Wanggong Yang, Yifei Zhao,
Abstract要約: LPGenはランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルである。 LPGenは、構造的およびスタイリスティックな特徴を独立して処理する分離されたクロスアテンションメカニズムを導入している。モデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
参考スコア（独自算出の注目度）: 2.205829309604458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-fidelity landscape paintings remains a challenging task that requires precise control over both structure and style. In this paper, we present LPGen, a novel diffusion-based model specifically designed for landscape painting generation. LPGen introduces a decoupled cross-attention mechanism that independently processes structural and stylistic features, effectively mimicking the layered approach of traditional painting techniques. Additionally, LPGen proposes a structural controller, a multi-scale encoder designed to control the layout of landscape paintings, striking a balance between aesthetics and composition. Besides, the model is pre-trained on a curated dataset of high-resolution landscape images, categorized by distinct artistic styles, and then fine-tuned to ensure detailed and consistent output. Through extensive evaluations, LPGen demonstrates superior performance in producing paintings that are not only structurally accurate but also stylistically coherent, surpassing current state-of-the-art models. This work advances AI-generated art and offers new avenues for exploring the intersection of technology and traditional artistic practices. Our code, dataset, and model weights will be publicly available.
Abstract（参考訳）: 高忠実な風景画の生成は、構造と様式の両方を正確に制御する必要がある難しい課題である。本稿では,ランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルLPGenを提案する。 LPGenは、構造的特徴とスタイル的特徴を独立に処理し、従来の絵画技法の階層的アプローチを効果的に模倣する、分離された相互注意機構を導入している。さらに、LPGenは、ランドスケープ絵画のレイアウトを制御するために設計されたマルチスケールエンコーダである構造制御器を提案し、美学と構成のバランスを損なう。さらに、このモデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。 LPGenは広範な評価を通じて、構造的に正確であるだけでなく、スタイリスティックに整合した絵画を製作する上で優れた性能を示し、現在の最先端のモデルを上回っている。この研究はAI生成芸術を進歩させ、技術と伝統的な芸術的実践の交わりを探索するための新たな道を提供する。コード、データセット、モデルの重み付けが公開されます。

関連論文リスト

Calligrapher: Freestyle Text Image Customization [72.71919410487881]
Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
論文参考訳（メタデータ） (2025-06-30T17:59:06Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文参考訳（メタデータ） (2025-02-18T17:34:04Z)
LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model [8.938617090786494]
複雑な外観を詳細な設計図に転送するフレームワークであるLineArtを紹介する。階層的な視覚認知をシミュレートすることで、構造的精度を維持しつつ、高忠実な外観を生成する。正確な3Dモデリング、物理的特性仕様、ネットワークトレーニングは必要とせず、設計作業に便利である。
論文参考訳（メタデータ） (2024-12-16T07:54:45Z)
A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文参考訳（メタデータ） (2024-12-07T19:10:29Z)
Diffusion Models with Anisotropic Gaussian Splatting for Image Inpainting [0.0]
本研究では,拡散モデルと異方性ガウススプラッティングを組み合わせ,局所構造とグローバルコンテキストの両方を効果的に捉える新しい塗装法を提案する。提案手法は最先端技術より優れ, 構造的整合性とテクスチャリアリズムを向上した視覚的可視性のある結果が得られる。
論文参考訳（メタデータ） (2024-12-02T16:29:06Z)
Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文参考訳（メタデータ） (2024-08-31T00:44:03Z)
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文参考訳（メタデータ） (2024-01-25T10:42:09Z)
ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T05:53:40Z)
Collaborative Neural Painting [27.880814775833578]
我々は,人間と機械の協調的な絵画作成を容易にする新しいタスク,CNP(Collaborative Neural Painting)を導入する。 CNPはコヒーレントな絵画の完成を支える一連のストロークを生成するべきである。本研究では,パラメータ化されたストロークの列に基づく絵画表現を提案する。
論文参考訳（メタデータ） (2023-12-04T10:45:12Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
Advancing Urban Renewal: An Automated Approach to Generating Historical Arcade Facades with Stable Diffusion Models [1.645684081891833]
本研究では,歴史的アーケードのファサード画像の自動生成手法を提案する。様々なアーケードスタイルを分類・タグ付けすることで、現実的なアーケードファサード画像データセットを構築した。提案手法は, 生成画像の高精度, 信頼性, 多様性を示すものである。
論文参考訳（メタデータ） (2023-11-20T08:03:12Z)
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文参考訳（メタデータ） (2023-10-05T12:29:41Z)
CCLAP: Controllable Chinese Landscape Painting Generation via Latent Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文参考訳（メタデータ） (2023-04-09T04:16:28Z)
QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文参考訳（メタデータ） (2022-12-20T17:09:53Z)
Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文参考訳（メタデータ） (2021-11-17T08:11:42Z)
Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文参考訳（メタデータ） (2020-07-14T17:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。