Fugu-MT 論文翻訳(概要): Accelerating Diffusion Sampling via Exploiting Local Transition Coherence

論文の概要: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence

arxiv url: http://arxiv.org/abs/2503.09675v1
Date: Wed, 12 Mar 2025 17:52:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.360699
Title: Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
Title（参考訳）: 局所遷移コヒーレンス爆発による拡散サンプリングの高速化
Authors: Shangwen Zhu, Han Zhang, Zhantao Yang, Qianyu Peng, Zhao Pu, Huangji Wang, Fan Cheng,
Abstract要約: LTC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオの合成において,サンプリングを著しく高速化することを示した。蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。
参考スコア（独自算出の注目度）: 3.3702932964273655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based diffusion models have made significant breakthroughs in generating high-quality images and videos from textual descriptions. However, the lengthy sampling time of the denoising process remains a significant bottleneck in practical applications. Previous methods either ignore the statistical relationships between adjacent steps or rely on attention or feature similarity between them, which often only works with specific network structures. To address this issue, we discover a new statistical relationship in the transition operator between adjacent steps, focusing on the relationship of the outputs from the network. This relationship does not impose any requirements on the network structure. Based on this observation, we propose a novel training-free acceleration method called LTC-Accel, which uses the identified relationship to estimate the current transition operator based on adjacent steps. Due to no specific assumptions regarding the network structure, LTC-Accel is applicable to almost all diffusion-based methods and orthogonal to almost all existing acceleration techniques, making it easy to combine with them. Experimental results demonstrate that LTC-Accel significantly speeds up sampling in text-to-image and text-to-video synthesis while maintaining competitive sample quality. Specifically, LTC-Accel achieves a speedup of 1.67-fold in Stable Diffusion v2 and a speedup of 1.55-fold in video generation models. When combined with distillation models, LTC-Accel achieves a remarkable 10-fold speedup in video generation, allowing real-time generation of more than 16FPS.
Abstract（参考訳）: テキストベースの拡散モデルは、テキスト記述から高品質な画像やビデオを生成するのに大きなブレークスルーをもたらした。しかし、デノナイジングプロセスの長いサンプリング時間は、実際的な応用において大きなボトルネックとなっている。従来の手法では、隣接するステップ間の統計的関係を無視したり、注意を頼ったり、それらの間の特徴的類似性に頼ったりしていた。この問題に対処するため、ネットワークからの出力の関係に着目し、隣接ステップ間の遷移演算子における新しい統計関係を探索する。この関係はネットワーク構造に何の要求も課さない。そこで本研究では,LCC-Accelと呼ばれる新たな学習自由加速法を提案する。ネットワーク構造に関する具体的な仮定がないため、LCC-Accelは、ほとんどすべての拡散に基づく手法に適用でき、ほとんど全ての既存の加速技術に直交している。実験結果から,LCC-Accelは,テキスト・ツー・イメージとテキスト・ツー・ビデオ合成におけるサンプリングを,競合するサンプル品質を維持しながら大幅に高速化することが示された。具体的には、LCC-Accelは、安定拡散v2における1.67倍のスピードアップと、ビデオ生成モデルにおける1.55倍のスピードアップを実現している。蒸留モデルと組み合わせることで、LCC-Accelはビデオ生成において驚くべき10倍のスピードアップを実現し、16FPS以上のリアルタイム生成を可能にした。

関連論文リスト

CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。 ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文参考訳（メタデータ） (2025-07-21T05:48:47Z)
Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。 RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文参考訳（メタデータ） (2025-03-13T15:54:45Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
Diffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウンバージョン(3$times$推論スピードアップ)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。 DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)
Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文参考訳（メタデータ） (2024-06-13T20:22:38Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文参考訳（メタデータ） (2023-10-09T15:29:10Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
Correlating sparse sensing for large-scale traffic speed estimation: A Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文参考訳（メタデータ） (2022-10-21T07:25:57Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。