論文の概要: DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2512.21867v1
- Date: Fri, 26 Dec 2025 05:03:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:24.829841
- Title: DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation
- Title(参考訳): DPAR: 効率的な自己回帰視覚生成のための動的パッチ
- Authors: Divyansh Srivastava, Akshay Mehra, Pranav Maneriker, Debopam Sanyal, Vishnu Raj, Vijay Kamarshi, Fan Du, Joshua Kimball,
- Abstract要約: 本稿では,デコーダのみの自己回帰モデルであるDPARについて述べる。
DPAR は Imagenet 256 と 384 でそれぞれトークン数を 1.81x と 2.06x に削減し、トレーニングコストの最大40% FLOP を削減した。
- 参考スコア(独自算出の注目度): 10.719563134726057
- License:
- Abstract: Decoder-only autoregressive image generation typically relies on fixed-length tokenization schemes whose token counts grow quadratically with resolution, substantially increasing the computational and memory demands of attention. We present DPAR, a novel decoder-only autoregressive model that dynamically aggregates image tokens into a variable number of patches for efficient image generation. Our work is the first to demonstrate that next-token prediction entropy from a lightweight and unsupervised autoregressive model provides a reliable criterion for merging tokens into larger patches based on information content. DPAR makes minimal modifications to the standard decoder architecture, ensuring compatibility with multimodal generation frameworks and allocating more compute to generation of high-information image regions. Further, we demonstrate that training with dynamically sized patches yields representations that are robust to patch boundaries, allowing DPAR to scale to larger patch sizes at inference. DPAR reduces token count by 1.81x and 2.06x on Imagenet 256 and 384 generation resolution respectively, leading to a reduction of up to 40% FLOPs in training costs. Further, our method exhibits faster convergence and improves FID by up to 27.1% relative to baseline models.
- Abstract(参考訳): デコーダのみの自己回帰画像生成は、通常、トークン数が分解能で2次的に増加する固定長のトークン化スキームに依存し、注意の計算とメモリ要求を大幅に増加させる。
DPARは、画像トークンを可変数のパッチに動的に集約して効率的な画像生成を行う、新しいデコーダのみの自己回帰モデルである。
我々の研究は、軽量で教師なしの自己回帰モデルによる次のトークン予測エントロピーが、情報コンテンツに基づいてトークンをより大きなパッチにマージするための信頼性の高い基準を提供することを示す最初のものである。
DPARは標準デコーダアーキテクチャに最小限の変更を加え、マルチモーダル生成フレームワークとの互換性を確保し、高情報画像領域の生成により多くの計算を割り当てる。
さらに、動的サイズのパッチを用いたトレーニングでは、パッチ境界に対して堅牢な表現が得られ、DPARは推論時により大きなパッチサイズにスケールできることを示す。
DPAR は Imagenet 256 と 384 でそれぞれトークン数を 1.81x と 2.06x に削減し、トレーニングコストの最大40% FLOP を削減した。
さらに,FIDをベースラインモデルに対して最大27.1%向上させる。
関連論文リスト
- HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Next Patch Prediction for Autoregressive Visual Generation [58.73461205369825]
我々はNext Token Prediction(NTP)パラダイムを新しいNext Patch Prediction(NPP)パラダイムに拡張する。
私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。
NPPは、画像Net 256x256生成ベンチマークにおいて、画像生成品質を最大1.0 FIDスコアで向上させながら、トレーニングコストを約0.6倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-12-19T18:59:36Z) - SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。