論文の概要: SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.09055v3
- Date: Thu, 21 Nov 2024 13:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:18.119326
- Title: SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models
- Title(参考訳): SemanticDraw: 画像拡散モデルによるリアルタイムインタラクティブコンテンツ作成を目指して
- Authors: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee,
- Abstract要約: 本稿では,複数の手書き領域から高品質な画像がほぼリアルタイムで生成されるインタラクティブコンテンツ作成の新たなパラダイムであるSemanticDrawを紹介する。
提案フレームワークは,既存の拡散モデルや加速度スケジューラに対して一般化可能であり,サブ秒(0.64秒)の画像コンテンツ作成アプリケーションを実現する。
- 参考スコア(独自算出の注目度): 43.04874003852966
- License:
- Abstract: We introduce SemanticDraw, a new paradigm of interactive content creation where high-quality images are generated in near real-time from given multiple hand-drawn regions, each encoding prescribed semantic meaning. In order to maximize the productivity of content creators and to fully realize their artistic imagination, it requires both quick interactive interfaces and fine-grained regional controls in their tools. Despite astonishing generation quality from recent diffusion models, we find that existing approaches for regional controllability are very slow (52 seconds for $512 \times 512$ image) while not compatible with acceleration methods such as LCM, blocking their huge potential in interactive content creation. From this observation, we build our solution for interactive content creation in two steps: (1) we establish compatibility between region-based controls and acceleration techniques for diffusion models, maintaining high fidelity of multi-prompt image generation with $\times 10$ reduced number of inference steps, (2) we increase the generation throughput with our new multi-prompt stream batch pipeline, enabling low-latency generation from multiple, region-based text prompts on a single RTX 2080 Ti GPU. Our proposed framework is generalizable to any existing diffusion models and acceleration schedulers, allowing sub-second (0.64 seconds) image content creation application upon well-established image diffusion models. Our project page is: https://jaerinlee.com/research/semantic-draw.
- Abstract(参考訳): 本稿では,複数の手書き領域から高品質な画像がほぼリアルタイムで生成され,それぞれが所定の意味論的意味を符号化する,インタラクティブコンテンツ作成の新しいパラダイムであるSemanticDrawを紹介する。
コンテンツクリエーターの生産性を最大化し、その芸術的想像力を十分に実現するためには、インタラクティブな迅速なインターフェースと、そのツールのきめ細かい地域制御の両方が必要である。
近年の拡散モデルによる生成品質は驚くべきものだが、既存の領域制御可能性のアプローチは非常に遅い(52秒で512 \times 512$ image)が、LCMのような加速手法と互換性がなく、インタラクティブなコンテンツ作成において大きな可能性を阻害している。
そこで我々は,(1)拡散モデルに対する領域ベース制御と加速技術との互換性を確立し,$\times 10$の推論ステップによるマルチプロンプト画像生成の高忠実度を維持し,(2)新しいマルチプロンプトストリームバッチパイプラインで生成スループットを向上し,単一RTX 2080 Ti GPU上で複数の領域ベースのテキストプロンプトから低レイテンシ生成を可能にする,インタラクティブなコンテンツ生成ソリューションを構築した。
提案フレームワークは,既存の拡散モデルや加速度スケジューラに対して一般化可能であり,画像拡散モデルに基づくサブ秒(0.64秒)の画像コンテンツ作成アプリケーションを実現する。
私たちのプロジェクトページは、 https://jaerinlee.com/research/semantic-draw.comです。
関連論文リスト
- MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。
画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。
提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T09:21:07Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。