Fugu-MT 論文翻訳(概要): LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model

論文の概要: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model

arxiv url: http://arxiv.org/abs/2407.17229v1
Date: Wed, 24 Jul 2024 12:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 13:54:30.606132
Title: LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model
Title（参考訳）: LPGen:拡散モデルによる高忠実景観絵画の創出
Authors: Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao,
Abstract要約: 本稿では,ランドスケープ・ペインティング・ジェネレーションのための高忠実かつ制御可能なモデルLPGenを提案する。拡散モデルに画像プロンプトを統合する新しいマルチモーダルフレームワークを提案する。我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。
参考スコア（独自算出の注目度）: 1.7966001353008776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
Abstract（参考訳）: 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。デコーダは最終画像を生成する。定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。 LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。

関連論文リスト

Calligrapher: Freestyle Text Image Customization [72.71919410487881]
Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
論文参考訳（メタデータ） (2025-06-30T17:59:06Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文参考訳（メタデータ） (2025-02-18T17:34:04Z)
LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model [8.938617090786494]
複雑な外観を詳細な設計図に転送するフレームワークであるLineArtを紹介する。階層的な視覚認知をシミュレートすることで、構造的精度を維持しつつ、高忠実な外観を生成する。正確な3Dモデリング、物理的特性仕様、ネットワークトレーニングは必要とせず、設計作業に便利である。
論文参考訳（メタデータ） (2024-12-16T07:54:45Z)
A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文参考訳（メタデータ） (2024-12-07T19:10:29Z)
Diffusion Models with Anisotropic Gaussian Splatting for Image Inpainting [0.0]
本研究では,拡散モデルと異方性ガウススプラッティングを組み合わせ,局所構造とグローバルコンテキストの両方を効果的に捉える新しい塗装法を提案する。提案手法は最先端技術より優れ, 構造的整合性とテクスチャリアリズムを向上した視覚的可視性のある結果が得られる。
論文参考訳（メタデータ） (2024-12-02T16:29:06Z)
Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文参考訳（メタデータ） (2024-08-31T00:44:03Z)
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文参考訳（メタデータ） (2024-01-25T10:42:09Z)
ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T05:53:40Z)
Collaborative Neural Painting [27.880814775833578]
我々は,人間と機械の協調的な絵画作成を容易にする新しいタスク,CNP(Collaborative Neural Painting)を導入する。 CNPはコヒーレントな絵画の完成を支える一連のストロークを生成するべきである。本研究では,パラメータ化されたストロークの列に基づく絵画表現を提案する。
論文参考訳（メタデータ） (2023-12-04T10:45:12Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
Advancing Urban Renewal: An Automated Approach to Generating Historical Arcade Facades with Stable Diffusion Models [1.645684081891833]
本研究では,歴史的アーケードのファサード画像の自動生成手法を提案する。様々なアーケードスタイルを分類・タグ付けすることで、現実的なアーケードファサード画像データセットを構築した。提案手法は, 生成画像の高精度, 信頼性, 多様性を示すものである。
論文参考訳（メタデータ） (2023-11-20T08:03:12Z)
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文参考訳（メタデータ） (2023-10-05T12:29:41Z)
CCLAP: Controllable Chinese Landscape Painting Generation via Latent Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文参考訳（メタデータ） (2023-04-09T04:16:28Z)
QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文参考訳（メタデータ） (2022-12-20T17:09:53Z)
Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文参考訳（メタデータ） (2021-11-17T08:11:42Z)
Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文参考訳（メタデータ） (2020-07-14T17:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。