論文の概要: Accelerating Masked Image Generation by Learning Latent Controlled Dynamics
- arxiv url: http://arxiv.org/abs/2602.23996v1
- Date: Fri, 27 Feb 2026 13:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.433108
- Title: Accelerating Masked Image Generation by Learning Latent Controlled Dynamics
- Title(参考訳): 潜在制御ダイナミクスの学習によるマスク画像生成の高速化
- Authors: Kaiwen Zhu, Quansheng Zeng, Yuandong Pu, Shuo Cao, Xiaohui Li, Yi Xin, Qi Qin, Jiayang Li, Yu Qiao, Jinjin Gu, Yihao Liu,
- Abstract要約: Masked Image Generation Models (MIGM) は大きな成功を収めたが、その効率性は双方向の注意の複数のステップによって妨げられている。
我々は、以前の特徴とサンプルトークンの両方を組み込んだ軽量モデルを学び、特徴進化の平均速度場を後退させる。
- 参考スコア(独自算出の注目度): 43.797476038568846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
- Abstract(参考訳): Masked Image Generation Models (MIGM) は大きな成功を収めたが、その効率性は双方向の注意の複数のステップによって妨げられている。
実際、それらの計算には顕著な冗長性があり、離散トークンをサンプリングすると、連続的な特徴に含まれるリッチなセマンティクスが失われる。
いくつかの既存の作業は、将来の機能を近似するために機能をキャッシュしようと試みている。
しかし、アグレッシブ加速速度下ではかなりの近似誤差を示す。
このことは, 限られた表現力と, 情報収集の失敗に起因している。
このギャップを埋めるために、我々は、以前の特徴とサンプルトークンの両方を組み込んだ軽量モデルを学び、特徴進化の平均速度場を抑えることを提案する。
モデルは、元のベースモデルと比較して軽量を維持しながら微妙なダイナミクスを捉えるのに十分である適度な複雑さがある。
我々はMIGM-Shortcutという手法を2つの代表的MIGMアーキテクチャとタスクに適用する。
特に、最先端のLumina-DiMOOでは、品質を維持しながらテキスト・画像生成の4倍以上の高速化を実現し、マスク画像生成のParetoフロンティアを著しく押し上げる。
コードとモデルの重み付けはhttps://github.com/Kaiwen-Zhu/MIGM-Shortcutで確認できる。
関連論文リスト
- Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling [14.372824543814602]
Masked Autoregressive (MAR)モデルは、並列生成能力のためのオートレグレッシブ(AR)モデルよりも、視覚生成の効率を向上する。
我々は、生成を2段階に分解するトレーニング不要な階層的サンプリング戦略であるGeneration then Reconstruction (GtR)を紹介した。
ImageNetのクラス条件とテキスト・ツー・イメージ生成の実験は、MAR-Hの3.72倍のスピードアップを示しながら、同等の品質を維持している。
論文 参考訳(メタデータ) (2025-10-20T05:22:10Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。
テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。
JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文 参考訳(メタデータ) (2025-03-11T17:59:46Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。