論文の概要: Autoregressive Distillation of Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.11295v1
- Date: Tue, 15 Apr 2025 15:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:39.208892
- Title: Autoregressive Distillation of Diffusion Transformers
- Title(参考訳): 拡散変圧器の自己回帰蒸留
- Authors: Yeongmin Kim, Sotiris Anagnostidis, Yuming Du, Edgar Schönfeld, Jonas Kohler, Markos Georgopoulos, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu,
- Abstract要約: 本稿では,ODEの歴史的軌道を利用して将来のステップを予測する新しい手法であるAutoRegressive Distillation (ARD)を提案する。
ARDには2つの大きな利点がある: 1) 蓄積されたエラーに弱い予測された履歴軌跡を利用することにより露出バイアスを緩和し、2) ODE軌跡の過去の履歴をより効果的な粗い情報源として活用する。
このモデルでは,ImageNet-256でFLOPを1.1%追加するだけで,ベースライン法に比べてFID劣化の5倍の低減を実現している。
- 参考スコア(独自算出の注目度): 18.19070958829772
- License:
- Abstract: Diffusion models with transformer architectures have demonstrated promising capabilities in generating high-fidelity images and scalability for high resolution. However, iterative sampling process required for synthesis is very resource-intensive. A line of work has focused on distilling solutions to probability flow ODEs into few-step student models. Nevertheless, existing methods have been limited by their reliance on the most recent denoised samples as input, rendering them susceptible to exposure bias. To address this limitation, we propose AutoRegressive Distillation (ARD), a novel approach that leverages the historical trajectory of the ODE to predict future steps. ARD offers two key benefits: 1) it mitigates exposure bias by utilizing a predicted historical trajectory that is less susceptible to accumulated errors, and 2) it leverages the previous history of the ODE trajectory as a more effective source of coarse-grained information. ARD modifies the teacher transformer architecture by adding token-wise time embedding to mark each input from the trajectory history and employs a block-wise causal attention mask for training. Furthermore, incorporating historical inputs only in lower transformer layers enhances performance and efficiency. We validate the effectiveness of ARD in a class-conditioned generation on ImageNet and T2I synthesis. Our model achieves a $5\times$ reduction in FID degradation compared to the baseline methods while requiring only 1.1\% extra FLOPs on ImageNet-256. Moreover, ARD reaches FID of 1.84 on ImageNet-256 in merely 4 steps and outperforms the publicly available 1024p text-to-image distilled models in prompt adherence score with a minimal drop in FID compared to the teacher. Project page: https://github.com/alsdudrla10/ARD.
- Abstract(参考訳): トランスアーキテクチャを用いた拡散モデルでは,高忠実度画像の生成と高解像度化のためのスケーラビリティが期待できる。
しかし、合成に必要な反復的なサンプリングプロセスは非常に資源集約的である。
一連の研究は、確率フローODEのソリューションを数ステップの学生モデルに蒸留することに焦点を当てている。
それにもかかわらず、既存の手法は、最新の復号化標本を入力として依存することで制限されており、露光バイアスの影響を受けやすい。
この制限に対処するため、我々はODEの歴史的軌道を利用して将来のステップを予測する新しいアプローチであるAutoRegressive Distillation (ARD)を提案する。
ARDには2つの利点があります
1)蓄積した誤りの影響を受けにくい予測された過去の軌跡を利用して露光バイアスを緩和し、
2) 従来のODEトラジェクトリの履歴を,より効果的な粗い情報源として活用する。
ARDは、トラジェクトリ履歴から各入力をマークするためにトークンワイズ時間埋め込みを追加し、トレーニングにブロックワイズ因果注意マスクを使用することで、教師トランスフォーマーアーキテクチャを変更する。
さらに, 過去の入力を低変圧器層にのみ組み込むことで, 性能と効率が向上する。
画像ネットとT2I合成におけるクラス条件付き生成におけるARDの有効性を検証する。
このモデルでは,ImageNet-256では1.1\%の追加FLOPしか必要とせず,ベースライン法に比べてFIDの劣化を5\times$で低減する。
さらに、ARDはImageNet-256で1.84のFIDをわずか4ステップで達成し、利用可能な1024pのテキスト・ツー・イメージの蒸留モデルより優れており、教師に比べてFIDが最小限に低下している。
プロジェクトページ: https://github.com/alsdudrla10/ARD
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文 参考訳(メタデータ) (2025-01-08T18:38:25Z) - When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。
CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。
最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文 参考訳(メタデータ) (2024-12-20T20:32:02Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
生成品質と蒸留効率を向上させるSiDA(SiD with Adversarial Loss)を導入する。
SiDAは実画像と敵対的損失を取り入れており、実画像とSiDによって生成された画像を区別することができる。
SiDAは、スクラッチから蒸留した場合、前者よりもかなり早く収束する。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。