論文の概要: Guiding Token-Sparse Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.01608v1
- Date: Sun, 04 Jan 2026 17:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.561471
- Title: Guiding Token-Sparse Diffusion Models
- Title(参考訳): トケンスパース拡散モデルの導出
- Authors: Felix Krause, Stefan Andreas Baumann, Johannes Schusterbauer, Olga Grebenkova, Ming Gui, Vincent Tao Hu, Björn Ommer,
- Abstract要約: 拡散モデルは画像合成において高い品質を提供するが、トレーニングと推論の間は高価である。
この問題を解決するためにスパースガイダンス(SG)を提案する。
- 参考スコア(独自算出の注目度): 27.143614677948865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models deliver high quality in image synthesis but remain expensive during training and inference. Recent works have leveraged the inherent redundancy in visual content to make training more affordable by training only on a subset of visual information. While these methods were successful in providing cheaper and more effective training, sparsely trained diffusion models struggle in inference. This is due to their lacking response to Classifier-free Guidance (CFG) leading to underwhelming performance during inference. To overcome this, we propose Sparse Guidance (SG). Instead of using conditional dropout as a signal to guide diffusion models, SG uses token-level sparsity. As a result, SG preserves the high-variance of the conditional prediction better, achieving good quality and high variance outputs. Leveraging token-level sparsity at inference, SG improves fidelity at lower compute, achieving 1.58 FID on the commonly used ImageNet-256 benchmark with 25% fewer FLOPs, and yields up to 58% FLOP savings at matched baseline quality. To demonstrate the effectiveness of Sparse Guidance, we train a 2.5B text-to-image diffusion model using training time sparsity and leverage SG during inference. SG achieves improvements in composition and human preference score while increasing throughput at the same time.
- Abstract(参考訳): 拡散モデルは画像合成において高い品質を提供するが、トレーニングと推論の間は高価である。
近年の研究では、視覚コンテンツに固有の冗長性を活用して、視覚情報のサブセットのみをトレーニングすることで、トレーニングをより手頃な価格で行えるようにしている。
これらの手法はより安価で効果的なトレーニングを提供することに成功したが、緩やかに訓練された拡散モデルは推論に苦慮した。
これは、CFG (Classifier-free Guidance) に対する応答が不足しているためであり、推論時のパフォーマンスを損なう原因となっている。
そこで我々はスパースガイダンス(SG)を提案する。
拡散モデルを誘導する信号として条件付きドロップアウトを使用する代わりに、SGはトークンレベルの間隔を使用する。
その結果、SGは条件付き予測の高分散を良好に保ち、良好な品質と高分散出力を達成する。
SGはトークンレベルの間隔を推論で利用することで、低い計算での忠実度を改善し、一般的に使用されるImageNet-256ベンチマークで1.58 FIDを達成し、FLOPを25%削減し、一致するベースライン品質で最大58%のFLOPを節約できる。
Sparse Guidanceの有効性を示すために、トレーニング時間間隔を用いて2.5Bのテキスト・画像拡散モデルを訓練し、推論時にSGを活用する。
SGは、スループットを同時に増加させながら、構成と人間の嗜好スコアの改善を実現する。
関連論文リスト
- Learn to Guide Your Diffusion Model [84.82855046749657]
本研究では,条件付き拡散モデルによる試料の品質向上手法について検討する。
誘導ウェイトは$omega_c,(s,t)$で、条件付き$c$、飾る時間$t$、飾る時間$s$の関数です。
我々は,モデルが報酬関数によって傾いた分布を目標にすることができるように,フレームワークを拡張して報酬付きサンプリングを行う。
論文 参考訳(メタデータ) (2025-10-01T12:21:48Z) - Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [35.56845917727121]
自己誘導(SG)は、低品質サンプルの生成を抑えることにより、生成画像の品質を著しく向上させることができる。
SGは、異なる雑音レベルにおける元の拡散または流れモデルのサンプリングスコア関数に依存する。
我々は、異なるアーキテクチャでテキスト・ツー・イメージとテキスト・ツー・ビデオ生成に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-12-08T06:32:27Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。