論文の概要: Neighboring Autoregressive Modeling for Efficient Visual Generation
- arxiv url: http://arxiv.org/abs/2503.10696v1
- Date: Wed, 12 Mar 2025 05:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:09.734210
- Title: Neighboring Autoregressive Modeling for Efficient Visual Generation
- Title(参考訳): 効率的な視覚生成のための隣接自己回帰モデル
- Authors: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang,
- Abstract要約: NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
- 参考スコア(独自算出の注目度): 19.486745219466666
- License:
- Abstract: Visual autoregressive models typically adhere to a raster-order ``next-token prediction" paradigm, which overlooks the spatial and temporal locality inherent in visual content. Specifically, visual tokens exhibit significantly stronger correlations with their spatially or temporally adjacent tokens compared to those that are distant. In this paper, we propose Neighboring Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive visual generation as a progressive outpainting procedure, following a near-to-far ``next-neighbor prediction" mechanism. Starting from an initial token, the remaining tokens are decoded in ascending order of their Manhattan distance from the initial token in the spatial-temporal space, progressively expanding the boundary of the decoded region. To enable parallel prediction of multiple adjacent tokens in the spatial-temporal space, we introduce a set of dimension-oriented decoding heads, each predicting the next token along a mutually orthogonal dimension. During inference, all tokens adjacent to the decoded tokens are processed in parallel, substantially reducing the model forward steps for generation. Experiments on ImageNet$256\times 256$ and UCF101 demonstrate that NAR achieves 2.4$\times$ and 8.6$\times$ higher throughput respectively, while obtaining superior FID/FVD scores for both image and video generation tasks compared to the PAR-4X approach. When evaluating on text-to-image generation benchmark GenEval, NAR with 0.8B parameters outperforms Chameleon-7B while using merely 0.4 of the training data. Code is available at https://github.com/ThisisBillhe/NAR.
- Abstract(参考訳): 視覚自己回帰モデルでは, 視覚内容に固有の空間的局所性や時間的局所性を見落とし, 視覚的トークンと空間的あるいは時間的に隣接したトークンとの相関関係が, 視覚的自己回帰モデル(NAR)に強く依存する。本稿では, 自己回帰的視覚生成を進歩的アウトパインティング手順として定式化する新パラダイムであるNARを提案する。
初期トークンから始めて、残りのトークンは、空間的時間空間における初期トークンからマンハッタン距離の上昇順にデコードされ、デコードされた領域の境界が徐々に拡張される。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,各トークンが互いに直交する次元に沿って次のトークンを予測する,次元指向デコードヘッドのセットを導入する。
推論中、デコードされたトークンに隣接するすべてのトークンが並列に処理され、生成のためのモデル転送ステップが大幅に削減される。
ImageNet$256\times 256$ と UCF101 の実験では、NAR は 2.4$\times$ と 8.6$\times$ をそれぞれ高いスループットで達成し、PAR-4X の手法と比較して、画像生成タスクとビデオ生成タスクの両方において優れた FID/FVD スコアを得た。
テキスト・画像生成ベンチマークGenEvalで評価する場合、0.8Bパラメータを持つNARは、トレーニングデータの0.4だけを使用しながらChameleon-7Bより優れている。
コードはhttps://github.com/ThisisBillhe/NARで入手できる。
関連論文リスト
- Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - ZipAR: Accelerating Auto-regressive Image Generation through Spatial Locality [19.486745219466666]
ZipARは、自動回帰(AR)ビジュアル生成のためのトレーニング不要でプラグ&プレイの並列デコーディングフレームワークである。
ZipARは、追加の再トレーニングを必要とせずに、Emu3-Genモデルでモデル転送回数を最大91%削減できる。
論文 参考訳(メタデータ) (2024-12-05T10:57:08Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Recurrent Distance Filtering for Graph Representation Learning [34.761926988427284]
反復的なワンホップメッセージパッシングに基づくグラフニューラルネットワークは、遠方のノードからの情報を効果的に活用するのに苦労していることが示されている。
これらの課題を解決するための新しいアーキテクチャを提案する。
我々のモデルは、ターゲットへの最短距離で他のノードを集約し、線形RNNを用いてホップ表現のシーケンスを符号化する。
論文 参考訳(メタデータ) (2023-12-03T23:36:16Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。