論文の概要: Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2510.08994v1
- Date: Fri, 10 Oct 2025 04:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.11116
- Title: Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
- Title(参考訳): 自動回帰テキスト画像生成の高速化のための投機的ヤコビ復号化復号法
- Authors: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu,
- Abstract要約: Speculative Jacobi-Denoising Decoding (SJD2) は、自動回帰モデルでパラレルトークン生成を可能にするために、デノナイズプロセスをJacobiに組み込むフレームワークである。
提案手法では,事前学習した自己回帰モデルに対して,ノイズ・摂動トークンの埋め込みを受理できる次クリーンな予測パラダイムを導入する。
- 参考スコア(独自算出の注目度): 110.28291466364784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a new paradigm of visual content generation, autoregressive text-to-image models suffer from slow inference due to their sequential token-by-token decoding process, often requiring thousands of model forward passes to generate a single image. To address this inefficiency, we propose Speculative Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising process into Jacobi iterations to enable parallel token generation in autoregressive models. Our method introduces a next-clean-token prediction paradigm that enables the pre-trained autoregressive models to accept noise-perturbed token embeddings and predict the next clean tokens through low-cost fine-tuning. This denoising paradigm guides the model towards more stable Jacobi trajectories. During inference, our method initializes token sequences with Gaussian noise and performs iterative next-clean-token-prediction in the embedding space. We employ a probabilistic criterion to verify and accept multiple tokens in parallel, and refine the unaccepted tokens for the next iteration with the denoising trajectory. Experiments show that our method can accelerate generation by reducing model forward passes while maintaining the visual quality of generated images.
- Abstract(参考訳): ビジュアルコンテンツ生成の新しいパラダイムとして、自動回帰的テキスト・ツー・イメージモデルは、シーケンシャルなトークン・バイ・トーケンデコーディングプロセスのために遅い推論に苦しむ。
この非効率性に対処するため、自動回帰モデルにおける並列トークン生成を可能にするために、このデノケーションプロセスをJacobiイテレーションに組み込むフレームワークであるSpeculative Jacobi-Denoising Decoding (SJD2)を提案する。
提案手法では,事前学習した自己回帰モデルに対して,低コストの微調整により,ノイズ摂動トークンの埋め込みを受理し,次のクリーントークンを予測できる次世代クリーントークン予測パラダイムを提案する。
この妄想的パラダイムは、より安定したヤコビ軌道に向けてモデルを導く。
提案手法は,ガウス雑音でトークン列を初期化し,埋め込み空間において反復的な次クリーン-トケン予測を行う。
我々は,複数のトークンを並列に検証,受け入れる確率的基準を用いて,次のイテレーションで許容されないトークンを発音軌道で洗練する。
実験により,生成した画像の視覚的品質を維持しながら,モデル転送パスを低減し,生成を高速化できることが示された。
関連論文リスト
- Latent Denoising Makes Good Visual Tokenizers [20.267773446610377]
補間ノイズとランダムマスキングにより劣化した潜伏埋設物からクリーンなイメージを再構築する訓練を施した,単純で効果的なトークンであるLatent Denoising Tokenizer (l-DeTok)を紹介した。
ImageNet 256x256の実験では、トークン化器が6つの代表的な生成モデルで標準トークン化器を一貫して上回っていることが実証された。
論文 参考訳(メタデータ) (2025-07-21T17:59:56Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。