論文の概要: Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens
- arxiv url: http://arxiv.org/abs/2512.04857v1
- Date: Thu, 04 Dec 2025 14:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.224268
- Title: Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens
- Title(参考訳): 自動回帰画像生成は、わずか数行の切欠きトークンしか必要としない
- Authors: Ziran Qin, Youru Lv, Mingbao Lin, Zeren Zhang, Chanfan Gan, Tieyuan Chen, Weiyao Lin,
- Abstract要約: LineARは、自動回帰画像生成のための新しい、トレーニング不要なプログレッシブキー値(KV)キャッシュ圧縮パイプラインである。
LineARは2Dビューを使用してラインレベルのキャッシュを管理し、視覚的依存領域を保存し、非形式的トークンを排除している。
LineARは67.61%のメモリ削減と7.57倍のスピードアップを含む、メモリとスループットの大幅な向上を実現している。
- 参考スコア(独自算出の注目度): 33.3294598877681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) visual generation has emerged as a powerful paradigm for image and multimodal synthesis, owing to its scalability and generality. However, existing AR image generation suffers from severe memory bottlenecks due to the need to cache all previously generated visual tokens during decoding, leading to both high storage requirements and low throughput. In this paper, we introduce \textbf{LineAR}, a novel, training-free progressive key-value (KV) cache compression pipeline for autoregressive image generation. By fully exploiting the intrinsic characteristics of visual attention, LineAR manages the cache at the line level using a 2D view, preserving the visual dependency regions while progressively evicting less-informative tokens that are harmless for subsequent line generation, guided by inter-line attention. LineAR enables efficient autoregressive (AR) image generation by utilizing only a few lines of cache, achieving both memory savings and throughput speedup, while maintaining or even improving generation quality. Extensive experiments across six autoregressive image generation models, including class-conditional and text-to-image generation, validate its effectiveness and generality. LineAR improves ImageNet FID from 2.77 to 2.68 and COCO FID from 23.85 to 22.86 on LlamaGen-XL and Janus-Pro-1B, while retaining only 1/6 KV cache. It also improves DPG on Lumina-mGPT-768 with just 1/8 KV cache. Additionally, LineAR achieves significant memory and throughput gains, including up to 67.61% memory reduction and 7.57x speedup on LlamaGen-XL, and 39.66% memory reduction and 5.62x speedup on Janus-Pro-7B.
- Abstract(参考訳): 自己回帰(AR)視覚生成は、そのスケーラビリティと汎用性から、画像とマルチモーダル合成の強力なパラダイムとして登場した。
しかし、既存のAR画像生成は、デコード中に以前に生成されたすべてのビジュアルトークンをキャッシュする必要があるため、メモリボトルネックに悩まされており、高いストレージ要求と低スループットの両方につながっている。
本稿では,自動回帰画像生成のための新しいトレーニングフリープログレッシブキー値 (KV) キャッシュ圧縮パイプラインである \textbf{LineAR} を紹介する。
視覚的注意の本質的な特徴をフル活用することにより、LineARは2次元ビューを使用してラインレベルのキャッシュを管理し、視覚的依存領域を保存すると同時に、ライン間の注意によって導かれる、その後のライン生成に無害な少ないインフォーマルなトークンを徐々に取り除く。
LineARは、数行のキャッシュしか利用せず、メモリの節約とスループットの高速化の両方を実現し、生成品質を維持または改善することで、効率的な自己回帰(AR)画像生成を可能にする。
クラス条件およびテキスト・ツー・イメージ生成を含む6つの自己回帰画像生成モデルに対する大規模な実験は、その有効性と一般性を検証する。
LineAR は ImageNet FID を 2.77 から 2.68 に、COCO FID を 23.85 から 22.86 に改善し、LlamaGen-XL と Janus-Pro-1B は 1/6 KV キャッシュしか保持していない。
また、1/8 KVキャッシュでLumina-mGPT-768のDPGも改善した。
また、LlamaGen-XLでは最大67.61%のメモリ削減と7.57倍のスピードアップ、Janus-Pro-7Bでは39.66%のメモリ削減と5.62倍のスピードアップを達成している。
関連論文リスト
- SSD: Spatial-Semantic Head Decoupling for Efficient Autoregressive Image Generation [5.864475030577771]
自動回帰画像生成モデルのための新しいKVキャッシュ圧縮フレームワークを提案する。
実験の結果,提案手法はメモリ使用量の5$times$削減とスループットの6.6$times$高速化を実現している。
論文 参考訳(メタデータ) (2025-10-21T15:17:37Z) - MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention [10.077033449956806]
Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
論文 参考訳(メタデータ) (2025-05-22T23:26:56Z) - FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文 参考訳(メタデータ) (2025-03-30T08:51:19Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。