論文の概要: iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image
Diffusion Model for Interior Design
- arxiv url: http://arxiv.org/abs/2312.04326v2
- Date: Tue, 19 Dec 2023 06:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:04:15.187924
- Title: iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image
Diffusion Model for Interior Design
- Title(参考訳): iDesigner: 内部設計のためのテキスト・画像拡散モデルによる高分解能・複雑プロンプト
- Authors: Ruyi Gan, Xiaojun Wu, Junyu Lu, Yuanhe Tian, Dixiang Zhang, Ziwei Wu,
Renliang Sun, Chang Liu, Jiaxing Zhang, Pingjian Zhang, Yan Song
- Abstract要約: 本稿では,CLIPフィードバックによるカリキュラム学習と強化学習による微調整戦略を提案する。
収集したデータセットに対する実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 42.061819736162356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the open-sourcing of text-to-image models (T2I) such as stable diffusion
(SD) and stable diffusion XL (SD-XL), there is an influx of models fine-tuned
in specific domains based on the open-source SD model, such as in anime,
character portraits, etc. However, there are few specialized models in certain
domains, such as interior design, which is attributed to the complex textual
descriptions and detailed visual elements inherent in design, alongside the
necessity for adaptable resolution. Therefore, text-to-image models for
interior design are required to have outstanding prompt-following capabilities,
as well as iterative collaboration with design professionals to achieve the
desired outcome. In this paper, we collect and optimize text-image data in the
design field and continue training in both English and Chinese on the basis of
the open-source CLIP model. We also proposed a fine-tuning strategy with
curriculum learning and reinforcement learning from CLIP feedback to enhance
the prompt-following capabilities of our approach so as to improve the quality
of image generation. The experimental results on the collected dataset
demonstrate the effectiveness of the proposed approach, which achieves
impressive results and outperforms strong baselines.
- Abstract(参考訳): 安定拡散 (SD) や安定拡散 XL (SD-XL) などのテキスト・ツー・イメージ・モデル (T2I) のオープンソース化により、アニメやキャラクター・ポートレートなどのオープンソースSDモデルに基づいて特定の領域で微調整されたモデルが流入する。
しかし、インテリアデザインのような特定の領域には、複雑なテキスト記述や、デザインに固有の詳細な視覚要素に起因し、適応可能な解像度を必要とするような特別なモデルがほとんど存在しない。
したがって、インテリアデザインのためのテキスト対イメージモデルは、望ましい結果を達成するためにデザイン専門家との反復的なコラボレーションだけでなく、優れたプロンプトフォロー機能を持つ必要がある。
本稿では,設計分野におけるテキスト画像データの収集と最適化を行い,オープンソースCLIPモデルに基づく英語と中国語のトレーニングを継続する。
また,カリキュラム学習とクリップフィードバックによる強化学習による微調整戦略を提案し,提案手法の迅速な追従能力を高め,画像生成の質を向上させる。
得られたデータセットにおける実験結果から,提案手法の有効性が示され,印象的な結果が得られ,強いベースラインを上回った。
関連論文リスト
- Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。