論文の概要: StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation
- arxiv url: http://arxiv.org/abs/2312.12491v1
- Date: Tue, 19 Dec 2023 18:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:16:08.846065
- Title: StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation
- Title(参考訳): StreamDiffusion: リアルタイムインタラクティブ生成のためのパイプラインレベルのソリューション
- Authors: Akio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei
Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer
- Abstract要約: 本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 29.30999290150683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce StreamDiffusion, a real-time diffusion pipeline designed for
interactive image generation. Existing diffusion models are adept at creating
images from text or image prompts, yet they often fall short in real-time
interaction. This limitation becomes particularly evident in scenarios
involving continuous input, such as Metaverse, live video streaming, and
broadcasting, where high throughput is imperative. To address this, we present
a novel approach that transforms the original sequential denoising into the
batching denoising process. Stream Batch eliminates the conventional
wait-and-interact approach and enables fluid and high throughput streams. To
handle the frequency disparity between data input and model throughput, we
design a novel input-output queue for parallelizing the streaming process.
Moreover, the existing diffusion pipeline uses classifier-free guidance(CFG),
which requires additional U-Net computation. To mitigate the redundant
computations, we propose a novel residual classifier-free guidance (RCFG)
algorithm that reduces the number of negative conditional denoising steps to
only one or even zero. Besides, we introduce a stochastic similarity
filter(SSF) to optimize power consumption. Our Stream Batch achieves around
1.5x speedup compared to the sequential denoising method at different denoising
levels. The proposed RCFG leads to speeds up to 2.05x higher than the
conventional CFG. Combining the proposed strategies and existing mature
acceleration tools makes the image-to-image generation achieve up-to 91.07fps
on one RTX4090, improving the throughputs of AutoPipline developed by Diffusers
over 59.56x. Furthermore, our proposed StreamDiffusion also significantly
reduces the energy consumption by 2.39x on one RTX3060 and 1.99x on one
RTX4090, respectively.
- Abstract(参考訳): 本稿では,インタラクティブ画像生成のためのリアルタイム拡散パイプラインstreamdiffusionを提案する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
この制限は、Metaverse、ライブビデオストリーミング、高スループットが必須となるブロードキャストといった連続的な入力を含むシナリオで特に顕著になる。
そこで本研究では,従来のシーケンシャル・デノナイジングをバッチ・デノナイジング・プロセスに変換する新しい手法を提案する。
stream batchは従来のwait-and-interactアプローチを廃止し、流体と高スループットストリームを可能にする。
データ入力とモデルスループットの周波数差を処理するために,ストリーミング処理を並列化する新しい入出力キューを設計する。
さらに、既存の拡散パイプラインは、追加のU-Net計算を必要とする分類器フリーガイダンス(CFG)を使用している。
冗長な計算を緩和するために, 負の条件付き分数化ステップを1つまたは0つに減らす新しい残差分類器フリー誘導(rcfg)アルゴリズムを提案する。
また,電力消費を最適化する確率的類似性フィルタ(ssf)を提案する。
私たちのStream Batchは、異なるdenoisingレベルでシーケンシャルなdenoising法と比較して1.5倍のスピードアップを実現しています。
提案したRCFGは従来のCFGよりも2.05倍高速である。
提案した戦略と既存の成熟した加速ツールを組み合わせることで、画像・画像生成は1つのRTX4090で最大91.07fpsを実現し、Diffusersによって開発されたAutoPiplineのスループットを59.56倍に向上させた。
さらに,提案したStreamDiffusionは,RTX3060では2.39倍,RTX4090では1.99倍のエネルギー消費を著しく削減する。
関連論文リスト
- DistriFusion: Distributed Parallel Inference for High-Resolution
Diffusion Models [45.86138893174132]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。