論文の概要: Plug-and-Play Context Feature Reuse for Efficient Masked Generation
- arxiv url: http://arxiv.org/abs/2505.19089v1
- Date: Sun, 25 May 2025 10:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.894236
- Title: Plug-and-Play Context Feature Reuse for Efficient Masked Generation
- Title(参考訳): 効率的なマスク生成のためのプラグ・アンド・プレイコンテキスト特徴の再利用
- Authors: Xuejie Liu, Anji Liu, Guy Van den Broeck, Yitao Liang,
- Abstract要約: MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
- 参考スコア(独自算出の注目度): 36.563229330549284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked generative models (MGMs) have emerged as a powerful framework for image synthesis, combining parallel decoding with strong bidirectional context modeling. However, generating high-quality samples typically requires many iterative decoding steps, resulting in high inference costs. A straightforward way to speed up generation is by decoding more tokens in each step, thereby reducing the total number of steps. However, when many tokens are decoded simultaneously, the model can only estimate the univariate marginal distributions independently, failing to capture the dependency among them. As a result, reducing the number of steps significantly compromises generation fidelity. In this work, we introduce ReCAP (Reused Context-Aware Prediction), a plug-and-play module that accelerates inference in MGMs by constructing low-cost steps via reusing feature embeddings from previously decoded context tokens. ReCAP interleaves standard full evaluations with lightweight steps that cache and reuse context features, substantially reducing computation while preserving the benefits of fine-grained, iterative generation. We demonstrate its effectiveness on top of three representative MGMs (MaskGIT, MAGE, and MAR), including both discrete and continuous token spaces and covering diverse architectural designs. In particular, on ImageNet256 class-conditional generation, ReCAP achieves up to 2.4x faster inference than the base model with minimal performance drop, and consistently delivers better efficiency-fidelity trade-offs under various generation settings.
- Abstract(参考訳): マスク付き生成モデル(MGM)は画像合成の強力なフレームワークとして登場し、並列デコーディングと強い双方向コンテキストモデリングを組み合わせた。
しかし、高品質なサンプルを生成するには、多くの反復デコードステップが必要であり、結果として推論コストが高い。
生成をスピードアップする簡単な方法は、各ステップでより多くのトークンをデコードすることで、ステップの総数を削減できる。
しかし、多くのトークンが同時に復号化されると、モデルは独立して一変量の辺り分布を推定するしかなく、それらの間の依存関係を捉えることができない。
その結果、ステップ数を減少させることで、生成忠実度を著しく損なうことになる。
本稿では,MGMにおける推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
ReCAPは、コンテキスト機能をキャッシュし再利用する軽量なステップで標準的な完全な評価をインターリーブし、微粒で反復的な生成の利点を保ちながら、計算を大幅に削減する。
離散トークン空間と連続トークン空間を含む3つの代表的MGM(MaskGIT,MAGE,MAR)上で有効性を示す。
特に、ImageNet256のクラス条件生成では、ReCAPは、パフォーマンス低下を最小限に抑えたベースモデルよりも2.4倍高速な推論を実現し、さまざまな世代設定の下で、一貫して効率と忠実性のトレードオフを提供する。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、サンプリング速度を損なうことなく高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。