論文の概要: CASCADE: Context-Aware Relaxation for Speculative Image Decoding
- arxiv url: http://arxiv.org/abs/2605.07230v1
- Date: Fri, 08 May 2026 04:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.799324
- Title: CASCADE: Context-Aware Relaxation for Speculative Image Decoding
- Title(参考訳): CASCADE: 投機的画像復号のためのコンテキスト認識緩和
- Authors: Selin Yildirim, Subhajit Dutta Chowdhury, Mohammad Mahdi Kamani, Vikram Appia, Deming Chen,
- Abstract要約: 自己回帰生成は高忠実度画像合成のための強力なアプローチである。
現在のアプローチでは、テキスト生成で見られるものと同等の効率向上を達成できない。
木に基づく投機的復号法で自然に現れる対象モデルの振舞いにおいて,これまで見過ごされていたパターンを同定する。
- 参考スコア(独自算出の注目度): 9.004650208708235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive generation is a powerful approach for high-fidelity image synthesis, but it remains computationally demanding and slow even on the most advanced accelerators. While speculative decoding has been explored to mitigate this bottleneck, existing approaches fail to achieve efficiency gains comparable to those observed in text generation. A key limitation is the target model's high uncertainty during image generation, which leads to high draft token rejection rates. In this work, we identify previously overlooked patterns in the target model's behavior that emerge naturally in tree-based speculative decoding. Specifically, we formalize two properties, semantic interchangeability and convergence, arising from the redundancies in the target model's hidden state representations. By capturing these redundancies across the depth and breadth of the predicted token tree, our method identifies principled opportunities for acceptance relaxation without requiring additional training. Additionally, we enhance standalone drafter performance by injecting the redundancy signals from the target model into drafter training with minimal modification. We evaluate our approach across multiple text-to-image models and drafter architectures. Results show that CASCADE achieves state-of-the-art speedups for drafter-based speculative decoding, with up to 3.6x acceleration, while maintaining image quality and text-prompt fidelity.
- Abstract(参考訳): 自己回帰生成は、高忠実度画像合成の強力なアプローチであるが、最も先進的な加速器でさえ、計算的に要求され、遅くなっています。
このボトルネックを軽減するために投機的復号化が検討されているが、既存の手法ではテキスト生成で見られるものと同等の効率向上を達成できない。
重要な制限は、画像生成中のターゲットモデルの高い不確実性であり、高いドラフトトークン拒否率をもたらす。
本研究では,木に基づく投機的復号法において自然に現れる対象モデルの振舞いにおいて,これまで見過ごされていたパターンを同定する。
具体的には、ターゲットモデルの隠れ状態表現における冗長性から生じる意味的交換性と収束性の2つの特性を定式化する。
予測されたトークンツリーの深さと幅をまたいでこれらの冗長性を捕捉することにより、追加のトレーニングを必要とせずに受け入れ緩和の原理的機会を特定する。
さらに,目標モデルからの冗長信号を最小限の修正でプロダクタトレーニングに注入することにより,スタンドアロンのプロダクタ性能を向上させる。
我々は複数のテキスト・ツー・イメージ・モデルとドラフト・アーキテクチャにまたがるアプローチを評価した。
その結果,CASCADEは画像品質とテキストプロンプトの忠実さを維持しつつ,最大3.6倍の高速化を実現した。
関連論文リスト
- Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation [32.808855735559135]
2つの重要な洞察に基づいて構築された投機的復号化のアニール緩和であるCOOL-SDを提案する。
実験によりCOOL-SDの有効性が検証され、速度品質トレードオフにおける従来の手法よりも一貫した改善が示された。
論文 参考訳(メタデータ) (2026-01-14T06:35:21Z) - Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。
MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。
我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文 参考訳(メタデータ) (2026-01-08T17:39:35Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。