論文の概要: Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal
Guided Diffusion
- arxiv url: http://arxiv.org/abs/2209.13360v2
- Date: Wed, 28 Sep 2022 05:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 13:08:59.319789
- Title: Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal
Guided Diffusion
- Title(参考訳): アート・ドリームを描く:多モード誘導拡散による異種デジタル・アート・シンセサイザー
- Authors: Nisha Huang, Fan Tang, Weiming Dong and Changsheng Xu
- Abstract要約: 現在のデジタルアート合成法は、通常、単一のモダリティ入力をガイダンスとして使用する。
拡散型デジタルアートワーク生成手法であるMGADモデルを提案する。
- 参考スコア(独自算出の注目度): 78.47285788155818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital art synthesis is receiving increasing attention in the multimedia
community because of engaging the public with art effectively. Current digital
art synthesis methods usually use single-modality inputs as guidance, thereby
limiting the expressiveness of the model and the diversity of generated
results. To solve this problem, we propose the multimodal guided artwork
diffusion (MGAD) model, which is a diffusion-based digital artwork generation
approach that utilizes multimodal prompts as guidance to control the
classifier-free diffusion model. Additionally, the contrastive language-image
pretraining (CLIP) model is used to unify text and image modalities. Extensive
experimental results on the quality and quantity of the generated digital art
paintings confirm the effectiveness of the combination of the diffusion model
and multimodal guidance. Code is available at
https://github.com/haha-lisa/MGAD-multimodal-guided-artwork-diffusion.
- Abstract(参考訳): デジタルアート・シンセサイザーは、アートを効果的に活用するため、マルチメディアコミュニティで注目を集めている。
現在のデジタルアート合成法は、通常、単一のモダリティ入力をガイダンスとして使用するため、モデルの表現性や生成結果の多様性が制限される。
この問題を解決するために,マルチモーダルプロンプトを用いた拡散型デジタルアートワーク生成手法であるMGADモデルを提案する。
さらに、テキストと画像のモダリティを統一するために、対照的な言語画像事前学習(CLIP)モデルが使用される。
生成したデジタルアート絵画の品質と量に関する広範な実験結果から,拡散モデルとマルチモーダル指導の組み合わせの有効性を確認した。
コードはhttps://github.com/haha-lisa/mgad-multimodal-guided-artwork-diffusionで入手できる。
関連論文リスト
- Diffusion Models for Multi-Task Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。