論文の概要: Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
- arxiv url: http://arxiv.org/abs/2412.17153v1
- Date: Sun, 22 Dec 2024 20:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:48.274136
- Title: Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
- Title(参考訳): 蒸留復号1:フローマッチングによる画像自己回帰モデルの一段階サンプリング
- Authors: Enshu Liu, Xuefei Ning, Yu Wang, Zinan Lin,
- Abstract要約: 自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成することができるのか?
本研究では,ガウス分布から事前学習されたARモデルの出力分布への決定論的マッピングを生成するために,フローマッチングを用いたDD(Distilled Decoding)を提案する。
- 参考スコア(独自算出の注目度): 12.985270202599814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) models have achieved state-of-the-art performance in text and image generation but suffer from slow generation due to the token-by-token process. We ask an ambitious question: can a pre-trained AR model be adapted to generate outputs in just one or two steps? If successful, this would significantly advance the development and deployment of AR models. We notice that existing works that try to speed up AR generation by generating multiple tokens at once fundamentally cannot capture the output distribution due to the conditional dependencies between tokens, limiting their effectiveness for few-step generation. To address this, we propose Distilled Decoding (DD), which uses flow matching to create a deterministic mapping from Gaussian distribution to the output distribution of the pre-trained AR model. We then train a network to distill this mapping, enabling few-step generation. DD doesn't need the training data of the original AR model, making it more practical.We evaluate DD on state-of-the-art image AR models and present promising results on ImageNet-256. For VAR, which requires 10-step generation, DD enables one-step generation (6.3$\times$ speed-up), with an acceptable increase in FID from 4.19 to 9.96. For LlamaGen, DD reduces generation from 256 steps to 1, achieving an 217.8$\times$ speed-up with a comparable FID increase from 4.11 to 11.35. In both cases, baseline methods completely fail with FID>100. DD also excels on text-to-image generation, reducing the generation from 256 steps to 2 for LlamaGen with minimal FID increase from 25.70 to 28.95. As the first work to demonstrate the possibility of one-step generation for image AR models, DD challenges the prevailing notion that AR models are inherently slow, and opens up new opportunities for efficient AR generation. The project website is at https://imagination-research.github.io/distilled-decoding.
- Abstract(参考訳): 自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成できるのでしょうか?
成功すれば、ARモデルの開発とデプロイが大幅に向上する。
複数のトークンを一度に生成することでAR生成を高速化しようとする既存の作業では、トークン間の条件依存による出力分布のキャプチャが基本的に不可能であることに気付き、数ステップ生成の有効性を制限している。
そこで本研究では,フローマッチングを用いてガウス分布から事前学習したARモデルの出力分布への決定論的マッピングを生成するDistilled Decoding (DD)を提案する。
次に、このマッピングを蒸留するためにネットワークをトレーニングし、数ステップ生成を可能にします。
DDは、元のARモデルのトレーニングデータを必要としないため、より実用的であり、最先端の画像ARモデル上でDDを評価し、ImageNet-256で有望な結果を示す。
10ステップ生成を必要とするVARでは、DDは1ステップ生成(6.3$\times$ speed-up)が可能で、FIDは4.19から9.96まで許容される。
LlamaGen の場合、DD は 256 ステップから 1 ステップに減らし、217.8$\times$ スピードアップを実現し、FID は 4.11 から 11.35 に増加した。
どちらの場合も、ベースラインメソッドはFID>100で完全に失敗する。
DDはテキスト・画像生成にも優れており、256ステップから2ステップに短縮され、FIDは25.70から28.95まで最小限に抑えられた。
画像ARモデルのワンステップ生成の可能性を示す最初の研究として、DDは、ARモデルは本質的に遅いという一般的な概念に挑戦し、効率的なAR生成のための新たな機会を開く。
プロジェクトのWebサイトはhttps://imagination-research.github.io/distilled-decodingにある。
関連論文リスト
- SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL [112.92522479863054]
この作業は、複雑な古風な修正を伴わない、バニラ自動回帰視覚生成フレームワークであるSimpleARを提示する。
我々は,高忠実度1024×1024解像度画像を生成し,テキスト・ツー・イメージ・ベンチマークで競合する結果が得られることを示した。
これらの発見を共有し、コードをオープンソース化することによって、自己回帰的な視覚生成の可能性を明らかにしたいと考えています。
論文 参考訳(メタデータ) (2025-04-15T17:59:46Z) - Autoregressive Distillation of Diffusion Transformers [18.19070958829772]
本稿では,ODEの歴史的軌道を利用して将来のステップを予測する新しい手法であるAutoRegressive Distillation (ARD)を提案する。
ARDには2つの大きな利点がある: 1) 蓄積されたエラーに弱い予測された履歴軌跡を利用することにより露出バイアスを緩和し、2) ODE軌跡の過去の履歴をより効果的な粗い情報源として活用する。
このモデルでは,ImageNet-256でFLOPを1.1%追加するだけで,ベースライン法に比べてFID劣化の5倍の低減を実現している。
論文 参考訳(メタデータ) (2025-04-15T15:33:49Z) - FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文 参考訳(メタデータ) (2025-03-30T08:51:19Z) - ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models [37.65992612575692]
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
論文 参考訳(メタデータ) (2025-03-04T18:59:56Z) - RandAR: Decoder-only Autoregressive Visual Generation in Random Orders [54.49937384788739]
RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。
我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。
RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
アイデンティティ蒸留(SiD)は、事前訓練された拡散モデルのみを活用することにより、画像生成におけるSOTA性能を達成したデータフリー手法である。
我々は,SiDA (SiD with Adversarial Loss)を導入し, 生成品質の向上だけでなく, 実画像と逆損失を取り入れて蒸留効率を向上させる。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。