論文の概要: SSD: Spatial-Semantic Head Decoupling for Efficient Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2510.18716v1
- Date: Tue, 21 Oct 2025 15:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.819965
- Title: SSD: Spatial-Semantic Head Decoupling for Efficient Autoregressive Image Generation
- Title(参考訳): SSD:効率的な自己回帰画像生成のための空間セマンティックヘッドデカップリング
- Authors: Siyong Jian, Huan Wang,
- Abstract要約: 自動回帰画像生成モデルのための新しいKVキャッシュ圧縮フレームワークを提案する。
実験の結果,提案手法はメモリ使用量の5$times$削減とスループットの6.6$times$高速化を実現している。
- 参考スコア(独自算出の注目度): 5.864475030577771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive image generation models like Janus-Pro produce high-quality images, but at the significant cost of high memory and ever-growing computational demands due to the large number of visual tokens. While KV cache compression has been extensively studied in language modeling, it still remains largely unexplored for the image generation domain. In this work, we begin by identifying a distinct and prominent attention phenomenon, which we term spatial locality and emergent semantic sink. To leverage this key insight, we introduce a novel KV cache compression framework. Specifically, we compress the KV cache for all visual tokens by adaptively decoupling attention heads into two separate types: for spatial-locality heads, our method maintains a short recent token window; for semantic-sink heads, it strategically preserves a compact set of highly-attended tokens. Our extensive experiments demonstrate that the proposed method achieves a 5$\times$ reduction in memory usage and a notable 6.6$\times$ speedup in overall throughput with only minimal visual quality loss, thereby enabling highly efficient native autoregressive image generation on resource-constrained hardware.
- Abstract(参考訳): Janus-Proのような自動回帰画像生成モデルは高品質な画像を生成するが、大量の視覚トークンのため、高メモリと継続的な計算要求の大幅なコストがかかる。
KVキャッシュ圧縮は言語モデリングにおいて広く研究されているが、画像生成領域ではいまだにほとんど解明されていない。
本研究では,空間的局所性と創発的セマンティックシンクという,目立った注意現象を識別することから始める。
この重要な知見を活用するために、我々は新しいKVキャッシュ圧縮フレームワークを導入する。
具体的には,すべての視覚的トークンに対してKVキャッシュを適応的に切り離して2つの異なるタイプに分割する:空間的局所性ヘッドに対して,本手法は,最近の短いトークンウィンドウを維持し,セマンティックシンクヘッドに対しては,高度に付加されたトークンのコンパクトなセットを戦略的に保存する。
提案手法はメモリ使用量の5$\times$と6.6$\times$のスループット向上を実現し,視覚的品質の損失を最小限に抑えることで,リソース制約のあるハードウェア上での高効率な自己回帰画像生成を実現する。
関連論文リスト
- MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention [10.077033449956806]
Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
論文 参考訳(メタデータ) (2025-05-22T23:26:56Z) - Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features [24.33252753245426]
我々は、相互注意マップにおけるスパースの性質を利用して、冗長な視覚的特徴を選択的に創り出す。
我々のモデルは、ベンチマークパリティを達成しながら、推論レイテンシとメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2025-04-01T09:10:32Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - HINT: High-quality INPainting Transformer with Mask-Aware Encoding and
Enhanced Attention [14.055584700641212]
既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。
本稿では,新しいマスク対応画素シャッフルダウンサンプリングモジュールであるHINTを用いたエンドツーエンドの高品質インペインティングトランスを提案する。
4つのデータセット上の現代最先端モデルと比較して,HINTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-22T00:14:26Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。