論文の概要: Grouped Speculative Decoding for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2508.07747v1
- Date: Mon, 11 Aug 2025 08:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.009366
- Title: Grouped Speculative Decoding for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成のためのグループ推測復号法
- Authors: Junhyuk So, Juncheol Shin, Hyunho Kook, Eunhyeok Park,
- Abstract要約: Grouped Speculative Decodingは、AR画像モデルのためのトレーニング不要のアクセラレーション手法である。
我々の詳細な分析では、言語と画像トークンの根本的な違いが明らかになっている。
我々は,単一のターゲットトークンに頼るのではなく,視覚的に有効なトークンのクラスタを評価する新しいSD戦略を提案する。
- 参考スコア(独自算出の注目度): 7.729178060213871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, autoregressive (AR) image models have demonstrated remarkable generative capabilities, positioning themselves as a compelling alternative to diffusion models. However, their sequential nature leads to long inference times, limiting their practical scalability. In this work, we introduce Grouped Speculative Decoding (GSD), a novel, training-free acceleration method for AR image models. While recent studies have explored Speculative Decoding (SD) as a means to speed up AR image generation, existing approaches either provide only modest acceleration or require additional training. Our in-depth analysis reveals a fundamental difference between language and image tokens: image tokens exhibit inherent redundancy and diversity, meaning multiple tokens can convey valid semantics. However, traditional SD methods are designed to accept only a single most-likely token, which fails to leverage this difference, leading to excessive false-negative rejections. To address this, we propose a new SD strategy that evaluates clusters of visually valid tokens rather than relying on a single target token. Additionally, we observe that static clustering based on embedding distance is ineffective, which motivates our dynamic GSD approach. Extensive experiments show that GSD accelerates AR image models by an average of 3.7x while preserving image quality-all without requiring any additional training. The source code is available at https://github.com/junhyukso/GSD
- Abstract(参考訳): 近年,自己回帰(AR)画像モデルが顕著な生成能力を示し,拡散モデルに対する説得力のある代替品として位置づけられている。
しかし、そのシーケンシャルな性質は長い推論時間をもたらし、実用的スケーラビリティを制限します。
本稿では,AR画像モデルのための新しいトレーニング不要加速法であるGrouped Speculative Decoding (GSD)を紹介する。
最近の研究では、AR画像生成を高速化する手段として、投機的復号法(SD)が研究されているが、既存のアプローチでは、緩やかな加速のみを提供するか、追加のトレーニングを必要とする。
画像トークンは固有の冗長性と多様性を示しており、複数のトークンが有効な意味を伝達することができる。
しかし、従来のSDメソッドは1つの最も類似したトークンのみを受け入れるように設計されており、これはこの差を利用することができないため、過度に偽陰性な拒絶を引き起こす。
そこで我々は,単一のターゲットトークンに頼るのではなく,視覚的に有効なトークンのクラスタを評価する新たなSD戦略を提案する。
さらに, 埋め込み距離に基づく静的クラスタリングは非効率であり, 動的GSDアプローチの動機となる。
大規模な実験により、GSDはAR画像モデルを平均3.7倍加速し、画像の品質を全て保持するが、追加の訓練は必要としない。
ソースコードはhttps://github.com/junhyukso/GSDで入手できる。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。