論文の概要: Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
- arxiv url: http://arxiv.org/abs/2510.21003v1
- Date: Thu, 23 Oct 2025 21:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.357775
- Title: Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
- Title(参考訳): 蒸留復号2:条件付きスコア蒸留による画像自己回帰モデルの一段階サンプリング
- Authors: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang,
- Abstract要約: Image Auto-Regressive (AR)モデルは、大量のサンプリングステップを必要とするため、生成速度が遅い。
画像ARモデルにおける一段階サンプリングの実現可能性を高めるため,Distilled Decoding 2 (DD2)を提案する。
最も強力なベースラインDD1と比較して、DD2は1ステップのサンプリングとオリジナルのARモデルのギャップを67%減らし、最大12.3$timesのトレーニングスピードアップを実現した。
- 参考スコア(独自算出の注目度): 34.82072097985874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Auto-regressive (AR) models have emerged as a powerful paradigm of visual generative models. Despite their promising performance, they suffer from slow generation speed due to the large number of sampling steps required. Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step sampling for image AR models, it still incurs significant performance degradation in the one-step setting, and relies on a pre-defined mapping that limits its flexibility. In this work, we propose a new method, Distilled Decoding 2 (DD2), to further advances the feasibility of one-step sampling for image AR models. Unlike DD1, DD2 does not without rely on a pre-defined mapping. We view the original AR model as a teacher model which provides the ground truth conditional score in the latent embedding space at each token position. Based on this, we propose a novel \emph{conditional score distillation loss} to train a one-step generator. Specifically, we train a separate network to predict the conditional score of the generated distribution and apply score distillation at every token position conditioned on previous tokens. Experimental results show that DD2 enables one-step sampling for image AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256. Compared to the strongest baseline DD1, DD2 reduces the gap between the one-step sampling and original AR model by 67%, with up to 12.3$\times$ training speed-up simultaneously. DD2 takes a significant step toward the goal of one-step AR generation, opening up new possibilities for fast and high-quality AR modeling. Code is available at https://github.com/imagination-research/Distilled-Decoding-2.
- Abstract(参考訳): Image Auto-Regressive(AR)モデルは、視覚生成モデルの強力なパラダイムとして登場した。
期待できる性能にもかかわらず、大量のサンプリングステップを必要とするため、生成速度が遅くなる。
Distilled Decoding 1 (DD1)は画像ARモデルの数ステップサンプリングを可能にするために最近提案されたが、それでも1ステップ設定でパフォーマンスが大幅に低下し、柔軟性を制限する事前定義されたマッピングに依存している。
本研究では,画像ARモデルにおける一段階サンプリングの実現可能性を高めるため,新しい手法 Distilled Decoding 2 (DD2) を提案する。
DD1とは異なり、DD2は事前に定義されたマッピングに依存しない。
我々は,元のARモデルを,各トークン位置における潜伏埋め込み空間における真理条件スコアを提供する教師モデルとみなす。
そこで本研究では,一段階発生器の訓練を行うための新しい 'emph{conditional score distillation loss} を提案する。
具体的には、生成した分布の条件スコアを予測するために別のネットワークをトレーニングし、前のトークンに条件付されたトークン位置毎にスコア蒸留を適用する。
実験の結果、DD2 は ImageNet-256 上で FID の最小値が 3.40 から 5.43 に増加する画像 AR モデルの1ステップサンプリングを可能にすることがわかった。
最も強力なベースラインDD1と比較して、DD2は1ステップのサンプリングとオリジナルのARモデルのギャップを67%減らし、最大12.3$\times$トレーニングスピードアップを実現した。
DD2はワンステップAR生成の目標に向かって大きな一歩を踏み出し、高速で高品質なARモデリングの新たな可能性を開く。
コードはhttps://github.com/imagination-research/Distilled-Decoding-2で公開されている。
関連論文リスト
- Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching [12.985270202599814]
自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成することができるのか?
本研究では,ガウス分布から事前学習されたARモデルの出力分布への決定論的マッピングを生成するために,フローマッチングを用いたDD(Distilled Decoding)を提案する。
論文 参考訳(メタデータ) (2024-12-22T20:21:54Z) - Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
生成品質と蒸留効率を向上させるSiDA(SiD with Adversarial Loss)を導入する。
SiDAは実画像と敵対的損失を取り入れており、実画像とSiDによって生成された画像を区別することができる。
SiDAは、スクラッチから蒸留した場合、前者よりもかなり早く収束する。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。