論文の概要: LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching
- arxiv url: http://arxiv.org/abs/2503.12450v1
- Date: Sun, 16 Mar 2025 10:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:06.330647
- Title: LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching
- Title(参考訳): LazyMAR: 機能キャッシングによるマスク自動回帰モデルの高速化
- Authors: Feihong Yan, Qingyan Wei, Jiayi Tang, Jiajun Li, Yulin Wang, Xuming Hu, Huiqi Li, Linfeng Zhang,
- Abstract要約: Masked Autoregressive (MAR)モデルは、画像生成において有望なアプローチとして登場した。
我々はLazyMARを提案する。LazyMARは2つのキャッシュ機構を導入し、それらを1つずつ処理する。
本手法は, 生成品質をほぼ低下させることなく2.83倍の加速を実現する。
- 参考スコア(独自算出の注目度): 33.024044212891326
- License:
- Abstract: Masked Autoregressive (MAR) models have emerged as a promising approach in image generation, expected to surpass traditional autoregressive models in computational efficiency by leveraging the capability of parallel decoding. However, their dependence on bidirectional self-attention inherently conflicts with conventional KV caching mechanisms, creating unexpected computational bottlenecks that undermine their expected efficiency. To address this problem, this paper studies the caching mechanism for MAR by leveraging two types of redundancy: Token Redundancy indicates that a large portion of tokens have very similar representations in the adjacent decoding steps, which allows us to first cache them in previous steps and then reuse them in the later steps. Condition Redundancy indicates that the difference between conditional and unconditional output in classifier-free guidance exhibits very similar values in adjacent steps. Based on these two redundancies, we propose LazyMAR, which introduces two caching mechanisms to handle them one by one. LazyMAR is training-free and plug-and-play for all MAR models. Experimental results demonstrate that our method achieves 2.83 times acceleration with almost no drop in generation quality. Our codes will be released in https://github.com/feihongyan1/LazyMAR.
- Abstract(参考訳): Masked Autoregressive (MAR)モデルは画像生成において有望なアプローチとして現れており、並列デコーディングの能力を活用することで計算効率において従来の自己回帰モデルを上回ることが期待されている。
しかし、その双方向自己注意への依存は、本来は従来のKVキャッシング機構と矛盾し、予想される効率を損なう予期せぬ計算ボトルネックを生み出す。
本稿では, 2種類の冗長性を利用して, MARのキャッシュ機構について検討する。 トークンの大部分が隣接する復号化ステップで非常によく似た表現をしており, 先行ステップでそれらをキャッシュし, 後段で再利用することができる。
条件冗長性は、分類器フリーガイダンスにおける条件出力と非条件出力の差が、隣接するステップで非常によく似た値を示すことを示している。
この2つの冗長性に基づいて,LazyMARを提案する。
LazyMARはトレーニングフリーで、すべてのMARモデルのプラグアンドプレイである。
実験の結果, 生成品質がほぼ低下しない2.83倍の高速化が得られた。
私たちのコードはhttps://github.com/feihongyan1/LazyMARでリリースされます。
関連論文リスト
- Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model [2.580765958706854]
拡散モデルは高い計算コストと遅い推論によって妨げられる。
そのようなアプローチの1つは、トークンマージ(ToMe)として知られる自己アテンションに供給されるトークンの数を減らすことに焦点を当てている。
論文 参考訳(メタデータ) (2025-01-01T20:16:27Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。