論文の概要: Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
- arxiv url: http://arxiv.org/abs/2412.17153v1
- Date: Sun, 22 Dec 2024 20:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:17.106085
- Title: Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
- Title(参考訳): 蒸留復号1:フローマッチングによる画像自己回帰モデルの一段階サンプリング
- Authors: Enshu Liu, Xuefei Ning, Yu Wang, Zinan Lin,
- Abstract要約: 自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成することができるのか?
本研究では,ガウス分布から事前学習されたARモデルの出力分布への決定論的マッピングを生成するために,フローマッチングを用いたDD(Distilled Decoding)を提案する。
- 参考スコア(独自算出の注目度): 12.985270202599814
- License:
- Abstract: Autoregressive (AR) models have achieved state-of-the-art performance in text and image generation but suffer from slow generation due to the token-by-token process. We ask an ambitious question: can a pre-trained AR model be adapted to generate outputs in just one or two steps? If successful, this would significantly advance the development and deployment of AR models. We notice that existing works that try to speed up AR generation by generating multiple tokens at once fundamentally cannot capture the output distribution due to the conditional dependencies between tokens, limiting their effectiveness for few-step generation. To address this, we propose Distilled Decoding (DD), which uses flow matching to create a deterministic mapping from Gaussian distribution to the output distribution of the pre-trained AR model. We then train a network to distill this mapping, enabling few-step generation. DD doesn't need the training data of the original AR model, making it more practical.We evaluate DD on state-of-the-art image AR models and present promising results on ImageNet-256. For VAR, which requires 10-step generation, DD enables one-step generation (6.3$\times$ speed-up), with an acceptable increase in FID from 4.19 to 9.96. For LlamaGen, DD reduces generation from 256 steps to 1, achieving an 217.8$\times$ speed-up with a comparable FID increase from 4.11 to 11.35. In both cases, baseline methods completely fail with FID>100. DD also excels on text-to-image generation, reducing the generation from 256 steps to 2 for LlamaGen with minimal FID increase from 25.70 to 28.95. As the first work to demonstrate the possibility of one-step generation for image AR models, DD challenges the prevailing notion that AR models are inherently slow, and opens up new opportunities for efficient AR generation. The project website is at https://imagination-research.github.io/distilled-decoding.
- Abstract(参考訳): 自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成できるのでしょうか?
成功すれば、ARモデルの開発とデプロイが大幅に向上する。
複数のトークンを一度に生成することでAR生成を高速化しようとする既存の作業では、トークン間の条件依存による出力分布のキャプチャが基本的に不可能であることに気付き、数ステップ生成の有効性を制限している。
そこで本研究では,フローマッチングを用いてガウス分布から事前学習したARモデルの出力分布への決定論的マッピングを生成するDistilled Decoding (DD)を提案する。
次に、このマッピングを蒸留するためにネットワークをトレーニングし、数ステップ生成を可能にします。
DDは、元のARモデルのトレーニングデータを必要としないため、より実用的であり、最先端の画像ARモデル上でDDを評価し、ImageNet-256で有望な結果を示す。
10ステップ生成を必要とするVARでは、DDは1ステップ生成(6.3$\times$ speed-up)が可能で、FIDは4.19から9.96まで許容される。
LlamaGen の場合、DD は 256 ステップから 1 ステップに減らし、217.8$\times$ スピードアップを実現し、FID は 4.11 から 11.35 に増加した。
どちらの場合も、ベースラインメソッドはFID>100で完全に失敗する。
DDはテキスト・画像生成にも優れており、256ステップから2ステップに短縮され、FIDは25.70から28.95まで最小限に抑えられた。
画像ARモデルのワンステップ生成の可能性を示す最初の研究として、DDは、ARモデルは本質的に遅いという一般的な概念に挑戦し、効率的なAR生成のための新たな機会を開く。
プロジェクトのWebサイトはhttps://imagination-research.github.io/distilled-decodingにある。
関連論文リスト
- Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
アイデンティティ蒸留(SiD)は、事前訓練された拡散モデルのみを活用することにより、画像生成におけるSOTA性能を達成したデータフリー手法である。
我々は,SiDA (SiD with Adversarial Loss)を導入し, 生成品質の向上だけでなく, 実画像と逆損失を取り入れて蒸留効率を向上させる。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。