論文の概要: Text Semantics to Image Generation: A method of building facades design
base on Stable Diffusion model
- arxiv url: http://arxiv.org/abs/2303.12755v2
- Date: Thu, 23 Mar 2023 01:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:06:22.683751
- Title: Text Semantics to Image Generation: A method of building facades design
base on Stable Diffusion model
- Title(参考訳): 画像生成のためのテキスト意味論:安定拡散モデルに基づくファサード設計ベースの構築法
- Authors: Haoran Ma
- Abstract要約: 本研究では,マルチネットワーク合成によるファサード画像生成手法を提案する。
LoRAアプローチを用いて,CMP Fa-cadesデータセット上で安定拡散モデルを微調整した。
ControlNetモデルの追加により、ファサードイメージを構築するためのテキスト生成の制御性が向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable Diffusion model has been extensively employed in the study of
archi-tectural image generation, but there is still an opportunity to enhance
in terms of the controllability of the generated image content. A multi-network
combined text-to-building facade image generating method is proposed in this
work. We first fine-tuned the Stable Diffusion model on the CMP Fa-cades
dataset using the LoRA (Low-Rank Adaptation) approach, then we ap-ply the
ControlNet model to further control the output. Finally, we contrast-ed the
facade generating outcomes under various architectural style text con-tents and
control strategies. The results demonstrate that the LoRA training approach
significantly decreases the possibility of fine-tuning the Stable Dif-fusion
large model, and the addition of the ControlNet model increases the
controllability of the creation of text to building facade images. This
pro-vides a foundation for subsequent studies on the generation of
architectural images.
- Abstract(参考訳): 安定拡散モデルは, 古テクトチュラル画像生成の研究に広く利用されているが, 生成した画像の可制御性を向上する機会は依然としてある。
本稿では,マルチネットワーク合成によるファサード画像生成手法を提案する。
まず, cmp fa-cades データセット上の安定拡散モデルを lora (low-rank adaptation) アプローチで微調整し, 制御ネットモデルを用いて出力制御を行った。
最後に、様々なアーキテクチャスタイルのテキストコンテントと制御戦略の下でのファサード生成結果の対比を行った。
その結果,LoRAトレーニング手法は,安定拡散拡散大モデルを微調整する可能性を大幅に低減し,制御ネットモデルの追加により,ファサード画像作成のためのテキスト生成の制御可能性を高めることが示された。
これにより、建築画像の生成に関するその後の研究の基礎が明確になる。
関連論文リスト
- Structured Pattern Expansion with Diffusion Models [6.726377308248659]
拡散モデルの最近の進歩は、材料、テクスチャ、および3次元形状の合成を著しく改善した。
本稿では、拡散モデルが一般に信頼性が低く、より重要なことに、制御不能な構造的定常パターンの合成に対処する。
これにより、ユーザは入力の構造と詳細を保存しながら、部分的に手書きのパターンをより大きなデザインに拡張することで、合成を直接制御することができる。
論文 参考訳(メタデータ) (2024-11-12T18:39:23Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - PRedItOR: Text Guided Image Editing with Diffusion Prior [2.3022070933226217]
テキストガイド画像編集は、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のモデル重みの微調整を必要とする。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
我々はこれを、逆DDIMなどの既存のアプローチを用いて、画像デコーダの編集を保存し、テキストガイド画像編集を行う構造と組み合わせる。
論文 参考訳(メタデータ) (2023-02-15T22:58:11Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。