論文の概要: StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
- arxiv url: http://arxiv.org/abs/2403.09055v1
- Date: Thu, 14 Mar 2024 02:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:57:10.148119
- Title: StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
- Title(参考訳): StreamMultiDiffusion: 領域ベースセマンティック制御によるリアルタイム対話型生成
- Authors: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee,
- Abstract要約: StreamMultiDiffusionは、最初のリアルタイムリージョンベースのテキスト画像生成フレームワークである。
我々のソリューションは、セマンティックパレットと呼ばれるインタラクティブな画像生成のための新しいパラダイムを開放する。
- 参考スコア(独自算出の注目度): 43.04874003852966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve $\times 10$ faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.
- Abstract(参考訳): テキストと画像の合成における拡散モデルの成功は、画像生成と編集のための次世代エンドユーザーアプリケーションに有望な候補を与えている。
従来の研究は、推論時間を削減するか、地域ベースのテキストプロンプトのような、よりきめ細かい新しい制御を可能にすることで、拡散モデルのユーザビリティ向上に重点を置いてきた。
しかし、経験的に、作品の両枝を統合することは自明であり、拡散モデルのポテンシャルを制限している。
この不整合性を解決するために,最初のリアルタイム領域ベースのテキスト画像生成フレームワークであるStreamMultiDiffusionを提案する。
高速な推論手法を安定化し,新たに提案したマルチプロンプトストリームバッチアーキテクチャにモデルを再構成することにより,既存のソリューションよりも10ドル高速なパノラマ生成を実現し,単一RTX 2080 Ti GPU上での領域ベーステキスト-画像合成における1.57 FPSの生成速度を実現した。
提案手法は,複数の手書き領域から高品質な画像がリアルタイムで生成され,所定の意味意味(例えば,ワシ,少女)を符号化する,インタラクティブな画像生成のための新しいパラダイムであるセマンティックパレット(セマンティックパレット)を開放する。
私たちのコードとデモアプリケーションはhttps://github.com/ironjr/StreamMultiDiffusion.comで公開されています。
関連論文リスト
- PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion [45.06392070934473]
PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。
本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。
Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
論文 参考訳(メタデータ) (2023-12-27T09:21:45Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。