論文の概要: MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention
- arxiv url: http://arxiv.org/abs/2506.12035v1
- Date: Thu, 22 May 2025 23:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.59496
- Title: MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention
- Title(参考訳): MARché:キャッシュを意識した高速なマスク付き自動回帰画像生成
- Authors: Chaoyi Jiang, Sungwoo Kim, Lei Gao, Hossein Entezari Zarch, Won Woo Ro, Murali Annavaram,
- Abstract要約: Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
- 参考スコア(独自算出の注目度): 10.077033449956806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoregressive (MAR) models unify the strengths of masked and autoregressive generation by predicting tokens in a fixed order using bidirectional attention for image generation. While effective, MAR models suffer from significant computational overhead, as they recompute attention and feed-forward representations for all tokens at every decoding step, despite most tokens remaining semantically stable across steps. We propose a training-free generation framework MARch\'e to address this inefficiency through two key components: cache-aware attention and selective KV refresh. Cache-aware attention partitions tokens into active and cached sets, enabling separate computation paths that allow efficient reuse of previously computed key/value projections without compromising full-context modeling. But a cached token cannot be used indefinitely without recomputation due to the changing contextual information over multiple steps. MARch\'e recognizes this challenge and applies a technique called selective KV refresh. Selective KV refresh identifies contextually relevant tokens based on attention scores from newly generated tokens and updates only those tokens that require recomputation, while preserving image generation quality. MARch\'e significantly reduces redundant computation in MAR without modifying the underlying architecture. Empirically, MARch\'e achieves up to 1.7x speedup with negligible impact on image quality, offering a scalable and broadly applicable solution for efficient masked transformer generation.
- Abstract(参考訳): Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、各デコードステップですべてのトークンの注意とフィードフォワード表現を再計算するので、多くのトークンは、ステップ全体で意味的に安定しているにもかかわらず、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ対応の注意と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch\'e を提案する。
キャッシュ対応のアテンションはトークンをアクティブなセットとキャッシュされたセットに分割することで、完全なコンテキストモデリングを損なうことなく、以前計算されたキー/バリュープロジェクションの効率的な再利用を可能にする、別々の計算パスを可能にする。
しかし、キャッシュされたトークンは、複数のステップでコンテキスト情報を変更するため、再計算なしでは使用できない。
MARch\'eはこの課題を認識し、選択的KVリフレッシュと呼ばれるテクニックを適用している。
選択的なKVリフレッシュは、新たに生成されたトークンからの注目スコアに基づいてコンテキスト関連トークンを特定し、画像生成の品質を維持しながら、再計算を必要とするトークンのみを更新する。
MARch\'eは、基盤となるアーキテクチャを変更することなく、MARの冗長な計算を著しく削減する。
経験的に、MARch\'eは画像品質に無視できない影響で最大1.7倍のスピードアップを実現し、効率的なマスク付きトランスフォーマー生成のためのスケーラブルで広く適用可能なソリューションを提供する。
関連論文リスト
- HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching [33.024044212891326]
Masked Autoregressive (MAR)モデルは、画像生成において有望なアプローチとして登場した。
我々はLazyMARを提案する。LazyMARは2つのキャッシュ機構を導入し、それらを1つずつ処理する。
本手法は, 生成品質をほぼ低下させることなく2.83倍の加速を実現する。
論文 参考訳(メタデータ) (2025-03-16T10:54:59Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Rethinking Patch Dependence for Masked Autoencoders [89.02576415930963]
マスク付きオートエンコーダ(MAE)のデコーダにおけるパッチ間の依存関係が表現学習に与える影響について検討する。
クロスアテンションマスク付きオートエンコーダ(CrossMAE)の簡易な視覚前訓練フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T18:49:57Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。