論文の概要: Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2507.01957v1
- Date: Wed, 02 Jul 2025 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.448744
- Title: Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
- Title(参考訳): 局所性を考慮した自己回帰画像生成のための並列デコーディング
- Authors: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han,
- Abstract要約: そこで我々は、自己回帰画像生成を高速化するために、Locality-aware Parallel Decoding (LPD)を提案する。
ImageNetのクラス条件生成の品質を損なうことなく、生成ステップを256から20(256$times$256 res.)、1024から48に短縮します。
- 参考スコア(独自算出の注目度): 10.421912048948634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256$\times$256 res.) and 1024 to 48 (512$\times$512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4$\times$ lower latency than previous parallelized autoregressive models.
- Abstract(参考訳): そこで我々は、自己回帰画像生成を高速化するために、Locality-aware Parallel Decoding (LPD)を提案する。
従来の自己回帰画像生成は、レイテンシの高いメモリバウンドプロセスである、次のパッチ予測に依存している。
既存の研究は、プロセスの高速化のためにマルチパッチ予測に移行することで、次のパッチ予測を並列化しようとしてきたが、限られた並列化しか達成できなかった。
生成品質を維持しつつ高い並列化を実現するために,(1)フレキシブル並列化自己回帰モデリング(Flexible Parallelized Autoregressive Modeling)を導入する。
学習可能な位置クエリトークンを使用して、目標位置における生成をガイドし、同時に生成されたトークン間の相互可視性を確保して、一貫した並列デコーディングを実現する。
2) グループ内の依存関係を最小限に抑え、文脈的サポートを最大化し、生成品質を向上させる新しいスケジュールであるLocality-Aware Generation Ordering。
これらの設計により、生成ステップを256から20(256$\times$256 res)に短縮する。
1024~48(512$\times$512 res)であった。
ImageNetのクラス条件生成の品質を損なうことなく、以前の並列化された自己回帰モデルよりも少なくとも3.4$\times$低レイテンシを実現している。
関連論文リスト
- Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding [111.16221796950126]
半自己回帰型テキスト・画像生成モデルであるLformerを提案する。
画像トークンの2次元構造を利用することで、Lformerは既存のTransformerベースの手法よりも高速に実現できる。
Lformerは、微調整を必要とせずに画像を編集できる。
論文 参考訳(メタデータ) (2023-03-07T11:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。