論文の概要: Space Narrative: Generating Images and 3D Scenes of Chinese Garden from
Text using Deep Learning
- arxiv url: http://arxiv.org/abs/2311.00339v1
- Date: Wed, 1 Nov 2023 07:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:34:01.072729
- Title: Space Narrative: Generating Images and 3D Scenes of Chinese Garden from
Text using Deep Learning
- Title(参考訳): 空間物語:深層学習を用いたテキストから中国庭園の画像と3次元シーンを生成する
- Authors: Jiaxi Shi1 and Hao Hua1
- Abstract要約: 深層学習を用いたテキスト記述に基づく庭園絵画生成手法を提案する。
画像とテキストのペアデータセットは,千点以上の明代庭園の絵画とその碑文とポストスクリプトで構成されている。
潜伏したテキスト・ツー・イメージ拡散モデルでは、明代の書画から庭園画へのマッピングを学習し、その後、実張庭園の本文記述がモデルに導かれ、新しい庭園画が生み出される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The consistent mapping from poems to paintings is essential for the research
and restoration of traditional Chinese gardens. But the lack of firsthand
ma-terial is a great challenge to the reconstruction work. In this paper, we
pro-pose a method to generate garden paintings based on text descriptions using
deep learning method. Our image-text pair dataset consists of more than one
thousand Ming Dynasty Garden paintings and their inscriptions and post-scripts.
A latent text-to-image diffusion model learns the mapping from de-scriptive
texts to garden paintings of the Ming Dynasty, and then the text description of
Jichang Garden guides the model to generate new garden paintings. The cosine
similarity between the guide text and the generated image is the evaluation
criterion for the generated images. Our dataset is used to fine-tune the
pre-trained diffusion model using Low-Rank Adapta-tion of Large Language Models
(LoRA). We also transformed the generated images into a panorama and created a
free-roam scene in Unity 3D. Our post-trained model is capable of generating
garden images in the style of Ming Dynasty landscape paintings based on textual
descriptions. The gener-ated images are compatible with three-dimensional
presentation in Unity 3D.
- Abstract(参考訳): 詩から絵画への一貫したマッピングは、伝統的な中国庭園の研究と修復に不可欠である。
しかし、手動のメイテリアルの欠如は、再建作業にとって大きな課題である。
本稿では,深層学習法を用いて,テキスト記述に基づく庭園画を生成する手法を提案する。
画像とテキストのペアデータセットは,千点以上の明代庭園の絵画とその碑文と後記からなる。
潜在テキストから画像への拡散モデルは、明王朝の庭園画への記述を学習し、その後、自昌庭園のテキスト記述がモデルをガイドし、新たな庭園画を生成する。
ガイドテキストと生成された画像とのコサイン類似性は、生成された画像の評価基準である。
本稿では,Low-Rank Adapta-tion of Large Language Models (LoRA)を用いて,事前学習した拡散モデルの微調整を行う。
生成した画像をパノラマに変換し、unity 3dでフリーロームシーンを作成しました。
戦後のモデルでは,文献的記述に基づき,明の風景画風の庭園画像を生成することができる。
生成した画像はUnity 3Dの3次元表示と互換性がある。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - DLP-GAN: learning to draw modern Chinese landscape photos with
generative adversarial network [20.74857981451259]
中国の風景画は独特で芸術的な様式であり、その画法は色と現実的な物体表現の両方において非常に抽象的である。
従来は、近代の絵から古代の墨画への移行に焦点が当てられていたが、風景画を近代の絵に翻訳することにはほとんど関心が向けられていない。
論文 参考訳(メタデータ) (2024-03-06T04:46:03Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。