Fugu-MT 論文翻訳(概要): StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

論文の概要: StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

arxiv url: http://arxiv.org/abs/2403.09055v1
Date: Thu, 14 Mar 2024 02:51:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 21:57:10.148119
Title: StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
Title（参考訳）: StreamMultiDiffusion: 領域ベースセマンティック制御によるリアルタイム対話型生成
Authors: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee,
Abstract要約: StreamMultiDiffusionは、最初のリアルタイムリージョンベースのテキスト画像生成フレームワークである。我々のソリューションは、セマンティックパレットと呼ばれるインタラクティブな画像生成のための新しいパラダイムを開放する。
参考スコア（独自算出の注目度）: 43.04874003852966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve $\times 10$ faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.
Abstract（参考訳）: テキストと画像の合成における拡散モデルの成功は、画像生成と編集のための次世代エンドユーザーアプリケーションに有望な候補を与えている。従来の研究は、推論時間を削減するか、地域ベースのテキストプロンプトのような、よりきめ細かい新しい制御を可能にすることで、拡散モデルのユーザビリティ向上に重点を置いてきた。しかし、経験的に、作品の両枝を統合することは自明であり、拡散モデルのポテンシャルを制限している。この不整合性を解決するために,最初のリアルタイム領域ベースのテキスト画像生成フレームワークであるStreamMultiDiffusionを提案する。高速な推論手法を安定化し,新たに提案したマルチプロンプトストリームバッチアーキテクチャにモデルを再構成することにより,既存のソリューションよりも10ドル高速なパノラマ生成を実現し,単一RTX 2080 Ti GPU上での領域ベーステキスト-画像合成における1.57 FPSの生成速度を実現した。提案手法は,複数の手書き領域から高品質な画像がリアルタイムで生成され,所定の意味意味(例えば,ワシ,少女)を符号化する,インタラクティブな画像生成のための新しいパラダイムであるセマンティックパレット(セマンティックパレット)を開放する。私たちのコードとデモアプリケーションはhttps://github.com/ironjr/StreamMultiDiffusion.comで公開されています。

関連論文リスト

Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文参考訳（メタデータ） (2024-09-17T09:21:07Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文参考訳（メタデータ） (2023-03-17T15:37:07Z)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (2023-02-16T06:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。