論文の概要: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
- arxiv url: http://arxiv.org/abs/2503.09675v1
- Date: Wed, 12 Mar 2025 17:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.360699
- Title: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
- Title(参考訳): 局所遷移コヒーレンス爆発による拡散サンプリングの高速化
- Authors: Shangwen Zhu, Han Zhang, Zhantao Yang, Qianyu Peng, Zhao Pu, Huangji Wang, Fan Cheng,
- Abstract要約: LTC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオの合成において,サンプリングを著しく高速化することを示した。
蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。
- 参考スコア(独自算出の注目度): 3.3702932964273655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based diffusion models have made significant breakthroughs in generating high-quality images and videos from textual descriptions. However, the lengthy sampling time of the denoising process remains a significant bottleneck in practical applications. Previous methods either ignore the statistical relationships between adjacent steps or rely on attention or feature similarity between them, which often only works with specific network structures. To address this issue, we discover a new statistical relationship in the transition operator between adjacent steps, focusing on the relationship of the outputs from the network. This relationship does not impose any requirements on the network structure. Based on this observation, we propose a novel training-free acceleration method called LTC-Accel, which uses the identified relationship to estimate the current transition operator based on adjacent steps. Due to no specific assumptions regarding the network structure, LTC-Accel is applicable to almost all diffusion-based methods and orthogonal to almost all existing acceleration techniques, making it easy to combine with them. Experimental results demonstrate that LTC-Accel significantly speeds up sampling in text-to-image and text-to-video synthesis while maintaining competitive sample quality. Specifically, LTC-Accel achieves a speedup of 1.67-fold in Stable Diffusion v2 and a speedup of 1.55-fold in video generation models. When combined with distillation models, LTC-Accel achieves a remarkable 10-fold speedup in video generation, allowing real-time generation of more than 16FPS.
- Abstract(参考訳): テキストベースの拡散モデルは、テキスト記述から高品質な画像やビデオを生成するのに大きなブレークスルーをもたらした。
しかし、デノナイジングプロセスの長いサンプリング時間は、実際的な応用において大きなボトルネックとなっている。
従来の手法では、隣接するステップ間の統計的関係を無視したり、注意を頼ったり、それらの間の特徴的類似性に頼ったりしていた。
この問題に対処するため、ネットワークからの出力の関係に着目し、隣接ステップ間の遷移演算子における新しい統計関係を探索する。
この関係はネットワーク構造に何の要求も課さない。
そこで本研究では,LCC-Accelと呼ばれる新たな学習自由加速法を提案する。
ネットワーク構造に関する具体的な仮定がないため、LCC-Accelは、ほとんどすべての拡散に基づく手法に適用でき、ほとんど全ての既存の加速技術に直交している。
実験結果から,LCC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオ合成におけるサンプリングを,競合するサンプル品質を維持しながら大幅に高速化することが示された。
具体的には、LCC-Accelは、安定拡散v2における1.67倍のスピードアップと、ビデオ生成モデルにおける1.55倍のスピードアップを実現している。
蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。
関連論文リスト
- LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration [12.183601881545039]
拡散モデルは画像およびビデオ生成タスクにおいて顕著な成功を収めた。
しかし、拡散変換器の高い計算要求は、実際の展開に重大な課題をもたらす。
2段階トレーニングに基づくLESA(LEarnable Stage-Aware)予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-24T02:53:28Z) - Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance [24.88807532823577]
本稿では,S2VCを提案する。S2VCは,条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合した,単一ステップ拡散に基づくビデオコーデックである。
S2VCは、従来の知覚法よりも平均52.73%の省力で、最先端の知覚品質を提供する。
論文 参考訳(メタデータ) (2025-12-08T12:05:30Z) - USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation [12.665130073406651]
サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。
平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。
我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-08T07:15:21Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
Diffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウンバージョン(3$times$推論スピードアップ)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。