論文の概要: SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2603.06666v1
- Date: Mon, 02 Mar 2026 13:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.693044
- Title: SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation
- Title(参考訳): SJD-PV:自己回帰画像生成のためのフレーズ検証による投機的ヤコビ復号化
- Authors: Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye,
- Abstract要約: 自己回帰(AR)画像モデルは、最近顕著な生成能力を示したが、そのシーケンシャルな性質は大きな推論遅延をもたらす。
フレーズレベルの投機的検証を行う新しい学習自由加速フレームワークを提案する。
提案手法は,視覚的忠実度を損なうことなく,最大30%高速な復号化を実現する。
- 参考スコア(独自算出の注目度): 20.808533388639468
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive (AR) image models have recently demonstrated remarkable generative capability, but their sequential nature results in significant inference latency. Existing training-free acceleration methods typically verify tokens independently, overlooking the strong co-occurrence patterns between adjacent visual tokens. This independence assumption often leads to contextual inconsistency and limits decoding efficiency. In this work, we introduce a novel training-free acceleration framework that performs phrase-level speculative verification, enabling the model to jointly validate multiple correlated tokens within each decoding window. To construct such phrase units, we analyze token co-occurrence statistics from the training corpus and group frequently co-occurring tokens into semantically coherent visual phrases. During inference, the proposed phrase-level verification evaluates aggregated likelihood ratios over each phrase, allowing simultaneous acceptance of multiple tokens while preserving generation quality. Extensive experiments on autoregressive text-to-image generation show that our method significantly reduces the number of function evaluations (NFE) and achieves up to 30% faster decoding without compromising visual fidelity. Our findings reveal that modeling short-range token co-occurrence provides an effective and general principle for accelerating autoregressive inference.
- Abstract(参考訳): 自己回帰(AR)画像モデルは、最近顕著な生成能力を示したが、そのシーケンシャルな性質は大きな推論遅延をもたらす。
既存のトレーニングフリー加速法は、隣接する視覚トークン間の強い共起パターンを見越して、トークンを独立して検証するのが一般的である。
この独立性の仮定は、しばしば文脈上の矛盾と復号効率の制限につながる。
本研究では,各デコードウィンドウ内で複数の相関トークンを共同検証し,フレーズレベルの投機的検証を行う新しい学習自由加速フレームワークを提案する。
このようなフレーズ単位を構築するために、トレーニングコーパスからトークン共起統計を分析し、しばしばトークンを意味的に一貫性のある視覚的フレーズにグループ化する。
提案したフレーズレベルの検証では,各フレーズに対するアグリゲートされた確率比を評価し,生成品質を保ちながら複数のトークンの同時受入を可能にする。
自動回帰テキスト・画像生成に関する大規模な実験により,提案手法は機能評価(NFE)を著しく削減し,視覚的忠実さを損なうことなく最大30%高速な復号を実現することが示された。
その結果,短距離トークン共起のモデリングは,自己回帰推論の高速化に有効かつ一般的な原理であることがわかった。
関連論文リスト
- CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。