論文の概要: Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling
- arxiv url: http://arxiv.org/abs/2411.18664v1
- Date: Wed, 27 Nov 2024 15:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:32.115688
- Title: Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling
- Title(参考訳): 拡張ビデオ拡散サンプリングのための時空間スキップ誘導
- Authors: Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo,
- Abstract要約: 本稿では、トランスフォーマーに基づくビデオ拡散モデルを改善するための時空間スキップガイダンス(TG)を提案する。
TGは自己摂動を通じて暗黙の弱いモデルを採用し、外部モデルや追加のトレーニングを必要としない。
TGは、多様性や動的度合いを損なうことなく、サンプルの品質を高めるために、オリジナルのモデルの整列した、劣化したバージョンを生成する。
- 参考スコア(独自算出の注目度): 32.2474423833013
- License:
- Abstract: Diffusion models have emerged as a powerful tool for generating high-quality images, videos, and 3D content. While sampling guidance techniques like CFG improve quality, they reduce diversity and motion. Autoguidance mitigates these issues but demands extra weak model training, limiting its practicality for large-scale models. In this work, we introduce Spatiotemporal Skip Guidance (STG), a simple training-free sampling guidance method for enhancing transformer-based video diffusion models. STG employs an implicit weak model via self-perturbation, avoiding the need for external models or additional training. By selectively skipping spatiotemporal layers, STG produces an aligned, degraded version of the original model to boost sample quality without compromising diversity or dynamic degree. Our contributions include: (1) introducing STG as an efficient, high-performing guidance technique for video diffusion models, (2) eliminating the need for auxiliary models by simulating a weak model through layer skipping, and (3) ensuring quality-enhanced guidance without compromising sample diversity or dynamics unlike CFG. For additional results, visit https://junhahyung.github.io/STGuidance.
- Abstract(参考訳): 拡散モデルは高品質の画像、ビデオ、および3Dコンテンツを生成するための強力なツールとして登場した。
CFGのようなサンプリングガイダンス技術は品質を向上させる一方で、多様性と動きを減少させる。
自動誘導はこれらの問題を緩和するが、より弱いモデルの訓練を必要とし、大規模モデルの実用性を制限する。
本研究では,変圧器を用いたビデオ拡散モデルを改善するための簡易なトレーニング不要サンプリング誘導法である時空間スキップガイダンス(STG)を紹介する。
STGは自己摂動を通じて暗黙の弱いモデルを採用し、外部モデルや追加のトレーニングを必要としない。
時空間層を選択的にスキップすることで、STGは、多様性や動的度合いを損なうことなくサンプル品質を向上させるために、原モデルの整列した劣化バージョンを生成する。
コントリビューションには,(1)ビデオ拡散モデルの効率的かつ高性能なガイダンス手法としてSTGを導入すること,(2)レイヤスキップによる弱いモデルシミュレーションによる補助モデルの必要性を排除すること,(3)サンプルの多様性やCFGと異なりダイナミックスを損なうことなく品質向上ガイダンスを確保すること,などが含まれている。
さらなる結果については、https://junhahyung.github.io/STGuidance.comを参照してください。
関連論文リスト
- Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Robust Fine-tuning for Pre-trained 3D Point Cloud Models [15.404188754049317]
本稿では,事前学習した3次元点雲モデルに対して,ロバストな微調整法を提案する。
我々は、現在の微調整手法の限界とロバストモデル学習の課題を強調した。
モデルロバスト性向上におけるWiSE-FT-LPの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-25T08:52:25Z) - Upsample Guidance: Scale Up Diffusion Models without Training [0.0]
事前学習した拡散モデルを適用して高解像度画像を生成する手法であるアップサンプルガイダンスを導入する。
注目すべきは、このテクニックは追加のトレーニングや外部モデルへの依存を必要としないことだ。
アップサンプルガイダンスは,画素空間,潜時空間,ビデオ拡散モデルなど,様々なモデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T07:49:08Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。