Fugu-MT 論文翻訳(概要): LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching

論文の概要: LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching

arxiv url: http://arxiv.org/abs/2503.12450v1
Date: Sun, 16 Mar 2025 10:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.910107
Title: LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching
Title（参考訳）: LazyMAR: 機能キャッシングによるマスク自動回帰モデルの高速化
Authors: Feihong Yan, Qingyan Wei, Jiayi Tang, Jiajun Li, Yulin Wang, Xuming Hu, Huiqi Li, Linfeng Zhang,
Abstract要約: Masked Autoregressive (MAR)モデルは、画像生成において有望なアプローチとして登場した。我々はLazyMARを提案する。LazyMARは2つのキャッシュ機構を導入し、それらを1つずつ処理する。本手法は, 生成品質をほぼ低下させることなく2.83倍の加速を実現する。
参考スコア（独自算出の注目度）: 33.024044212891326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Autoregressive (MAR) models have emerged as a promising approach in image generation, expected to surpass traditional autoregressive models in computational efficiency by leveraging the capability of parallel decoding. However, their dependence on bidirectional self-attention inherently conflicts with conventional KV caching mechanisms, creating unexpected computational bottlenecks that undermine their expected efficiency. To address this problem, this paper studies the caching mechanism for MAR by leveraging two types of redundancy: Token Redundancy indicates that a large portion of tokens have very similar representations in the adjacent decoding steps, which allows us to first cache them in previous steps and then reuse them in the later steps. Condition Redundancy indicates that the difference between conditional and unconditional output in classifier-free guidance exhibits very similar values in adjacent steps. Based on these two redundancies, we propose LazyMAR, which introduces two caching mechanisms to handle them one by one. LazyMAR is training-free and plug-and-play for all MAR models. Experimental results demonstrate that our method achieves 2.83 times acceleration with almost no drop in generation quality. Our codes will be released in https://github.com/feihongyan1/LazyMAR.
Abstract（参考訳）: Masked Autoregressive (MAR)モデルは画像生成において有望なアプローチとして現れており、並列デコーディングの能力を活用することで計算効率において従来の自己回帰モデルを上回ることが期待されている。しかし、その双方向自己注意への依存は、本来は従来のKVキャッシング機構と矛盾し、予想される効率を損なう予期せぬ計算ボトルネックを生み出す。本稿では, 2種類の冗長性を利用して, MARのキャッシュ機構について検討する。トークンの大部分が隣接する復号化ステップで非常によく似た表現をしており, 先行ステップでそれらをキャッシュし, 後段で再利用することができる。条件冗長性は、分類器フリーガイダンスにおける条件出力と非条件出力の差が、隣接するステップで非常によく似た値を示すことを示している。この2つの冗長性に基づいて,LazyMARを提案する。 LazyMARはトレーニングフリーで、すべてのMARモデルのプラグアンドプレイである。実験の結果, 生成品質がほぼ低下しない2.83倍の高速化が得られた。私たちのコードはhttps://github.com/feihongyan1/LazyMARでリリースされます。

関連論文リスト

AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文参考訳（メタデータ） (2025-06-05T17:45:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文参考訳（メタデータ） (2025-05-25T10:57:35Z)
MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention [10.077033449956806]
Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
論文参考訳（メタデータ） (2025-05-22T23:26:56Z)
Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model [2.580765958706854]
拡散モデルは高い計算コストと遅い推論によって妨げられる。そのようなアプローチの1つは、トークンマージ(ToMe)として知られる自己アテンションに供給されるトークンの数を減らすことに焦点を当てている。
論文参考訳（メタデータ） (2025-01-01T20:16:27Z)
Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文参考訳（メタデータ） (2024-12-19T17:59:54Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2020-07-17T07:47:10Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。