論文の概要: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
- arxiv url: http://arxiv.org/abs/2503.09675v1
- Date: Wed, 12 Mar 2025 17:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:21.163987
- Title: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
- Title(参考訳): 局所遷移コヒーレンス爆発による拡散サンプリングの高速化
- Authors: Shangwen Zhu, Han Zhang, Zhantao Yang, Qianyu Peng, Zhao Pu, Huangji Wang, Fan Cheng,
- Abstract要約: LTC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオの合成において,サンプリングを著しく高速化することを示した。
蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。
- 参考スコア(独自算出の注目度): 3.3702932964273655
- License:
- Abstract: Text-based diffusion models have made significant breakthroughs in generating high-quality images and videos from textual descriptions. However, the lengthy sampling time of the denoising process remains a significant bottleneck in practical applications. Previous methods either ignore the statistical relationships between adjacent steps or rely on attention or feature similarity between them, which often only works with specific network structures. To address this issue, we discover a new statistical relationship in the transition operator between adjacent steps, focusing on the relationship of the outputs from the network. This relationship does not impose any requirements on the network structure. Based on this observation, we propose a novel training-free acceleration method called LTC-Accel, which uses the identified relationship to estimate the current transition operator based on adjacent steps. Due to no specific assumptions regarding the network structure, LTC-Accel is applicable to almost all diffusion-based methods and orthogonal to almost all existing acceleration techniques, making it easy to combine with them. Experimental results demonstrate that LTC-Accel significantly speeds up sampling in text-to-image and text-to-video synthesis while maintaining competitive sample quality. Specifically, LTC-Accel achieves a speedup of 1.67-fold in Stable Diffusion v2 and a speedup of 1.55-fold in video generation models. When combined with distillation models, LTC-Accel achieves a remarkable 10-fold speedup in video generation, allowing real-time generation of more than 16FPS.
- Abstract(参考訳): テキストベースの拡散モデルは、テキスト記述から高品質な画像やビデオを生成するのに大きなブレークスルーをもたらした。
しかし、デノナイジングプロセスの長いサンプリング時間は、実際的な応用において大きなボトルネックとなっている。
従来の手法では、隣接するステップ間の統計的関係を無視したり、注意を頼ったり、それらの間の特徴的類似性に頼ったりしていた。
この問題に対処するため、ネットワークからの出力の関係に着目し、隣接ステップ間の遷移演算子における新しい統計関係を探索する。
この関係はネットワーク構造に何の要求も課さない。
そこで本研究では,LCC-Accelと呼ばれる新たな学習自由加速法を提案する。
ネットワーク構造に関する具体的な仮定がないため、LCC-Accelは、ほとんどすべての拡散に基づく手法に適用でき、ほとんど全ての既存の加速技術に直交している。
実験結果から,LCC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオ合成におけるサンプリングを,競合するサンプル品質を維持しながら大幅に高速化することが示された。
具体的には、LCC-Accelは、安定拡散v2における1.67倍のスピードアップと、ビデオ生成モデルにおける1.55倍のスピードアップを実現している。
蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。
関連論文リスト
- Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Ultra-low Latency Spiking Neural Networks with Spatio-Temporal
Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。
Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。
本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T15:14:13Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。