論文の概要: Autoregressive Image Generation with Randomized Parallel Decoding
- arxiv url: http://arxiv.org/abs/2503.10568v1
- Date: Thu, 13 Mar 2025 17:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:34.059506
- Title: Autoregressive Image Generation with Randomized Parallel Decoding
- Title(参考訳): ランダム化並列デコードによる自己回帰画像生成
- Authors: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang,
- Abstract要約: ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
- 参考スコア(独自算出の注目度): 23.714192351237628
- License:
- Abstract: We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.
- Abstract(参考訳): 本稿では,ランダム化並列生成を可能にする新しい視覚自己回帰モデルであるARPGを導入し,従来のラスタオーダーアプローチの制約に対処する。
我々の重要な洞察は、有効なランダムオーダーモデリングは、次の予測トークンの位置を決定するための明示的なガイダンスを必要とすることである。
この目的のために,コンテンツ表現から位置指示を分離し,クエリとキー-値ペアとして個別に符号化する,ガイド付き復号化フレームワークを提案する。
このガイダンスを因果的注意機構に直接組み込むことで、完全にランダムな順序のトレーニングと生成が可能となり、双方向の注意の必要性がなくなる。
その結果、ARPGは画像のインペインティング、アウトペインティング、解像度拡張といったゼロショットタスクに容易に一般化できる。
さらに、共有KVキャッシュを使用して複数のクエリを並列処理することで、並列推論をサポートする。
ImageNet-1K 256ベンチマークでは,64ステップのみでFIDが1.94に達し,20倍以上のスループット向上を実現し,メモリ消費を75%以上削減した。
関連論文リスト
- FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling [17.62612090885471]
マルチステージモデリングによる効率的な連続自己回帰画像生成(ECAR)について述べる。
解像度が上がるとトークンを生成し、同時に各ステージで画像をデノナイズする。
ECARはDiT Peebles & Xie [2023]に匹敵する画質を実現し、10$times$ FLOPsと5$times$のスピードアップを必要とし、256$times $256イメージを生成する。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Unsupervised Segmentation by Diffusing, Walking and Cutting [5.6872893893453105]
本稿では,事前学習したテキスト・画像拡散モデルの特徴を用いた教師なし画像分割手法を提案する。
重要な洞察は、自己アテンション確率分布は、画像を横断するランダムウォーキングの遷移行列として解釈できることである。
提案手法は,COCO-Stuff-27およびCityscapesにおける非教師なしセグメンテーションの既存手法を全て超越し,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-12-06T00:23:18Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。