論文の概要: ZipAR: Accelerating Auto-regressive Image Generation through Spatial Locality
- arxiv url: http://arxiv.org/abs/2412.04062v2
- Date: Wed, 18 Dec 2024 07:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:49.139815
- Title: ZipAR: Accelerating Auto-regressive Image Generation through Spatial Locality
- Title(参考訳): ZipAR:空間的局所性による自動回帰画像生成の高速化
- Authors: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang,
- Abstract要約: ZipARは、自動回帰(AR)ビジュアル生成のためのトレーニング不要でプラグ&プレイの並列デコーディングフレームワークである。
ZipARは、追加の再トレーニングを必要とせずに、Emu3-Genモデルでモデル転送回数を最大91%削減できる。
- 参考スコア(独自算出の注目度): 19.486745219466666
- License:
- Abstract: In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining. Code is available here: https://github.com/ThisisBillhe/ZipAR.
- Abstract(参考訳): 本稿では,自動回帰(AR)視覚生成の高速化を目的とした,トレーニングフリーでプラグイン・アンド・プレイ並列デコーディングフレームワークZipARを提案する。
モチベーションは、画像が局所的な構造を示し、空間的に離れた地域は最小の相互依存性を持つ傾向にあるという観察に起因している。
部分復号化された視覚トークンが与えられた場合、行次元における元の次トーケン予測スキームに加えて、列次元における空間隣接領域に対応するトークンを並列に復号化することができ、`next-set prediction'パラダイムが実現される。
複数のトークンを1つのフォワードパスで同時に復号することで、画像を生成するのに必要なフォワードパスの数が大幅に減少し、生成効率が大幅に向上する。
実験によると、ZipARは追加の再トレーニングを必要とせずに、Emu3-Genモデルでモデル転送回数を最大91%削減できる。
コードは、https://github.com/ThisisBillhe/ZipAR.comで入手できる。
関連論文リスト
- Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。
離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。
我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文 参考訳(メタデータ) (2024-12-12T18:59:31Z) - RandAR: Decoder-only Autoregressive Visual Generation in Random Orders [54.49937384788739]
RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。
我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。
RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。