論文の概要: From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
- arxiv url: http://arxiv.org/abs/2512.24639v1
- Date: Wed, 31 Dec 2025 05:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.580233
- Title: From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
- Title(参考訳): 連続から空間へ:効率的な視覚生成のための自己回帰を並べ替える
- Authors: Siyang Wang, Hanting Li, Wei Li, Jie Hu, Xinghao Chen, Feng Zhao,
- Abstract要約: 自動回帰視覚生成を高速化する,効率的かつ並列化可能なフレームワークであるRadARを提案する。
提案手法は,視覚的トークンが局所的な強い依存度や空間的相関性を示すという観察に動機付けられ,その特性は標準スキャン復号命令で十分に活用されていない。
- 参考スコア(独自算出の注目度): 26.867135297190064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the remarkable success of autoregressive models in language modeling, this paradigm has been widely adopted in visual generation. However, the sequential token-by-token decoding mechanism inherent in traditional autoregressive models leads to low inference efficiency.In this paper, we propose RadAR, an efficient and parallelizable framework designed to accelerate autoregressive visual generation while preserving its representational capacity. Our approach is motivated by the observation that visual tokens exhibit strong local dependencies and spatial correlations with their neighbors--a property not fully exploited in standard raster-scan decoding orders. Specifically, we organize the generation process around a radial topology: an initial token is selected as the starting point, and all other tokens are systematically grouped into multiple concentric rings according to their spatial distances from this center. Generation then proceeds in a ring-wise manner, from inner to outer regions, enabling the parallel prediction of all tokens within the same ring. This design not only preserves the structural locality and spatial coherence of visual scenes but also substantially increases parallelization. Furthermore, to address the risk of inconsistent predictions arising from simultaneous token generation with limited context, we introduce a nested attention mechanism. This mechanism dynamically refines implausible outputs during the forward pass, thereby mitigating error accumulation and preventing model collapse. By integrating radial parallel prediction with dynamic output correction, RadAR significantly improves generation efficiency.
- Abstract(参考訳): 言語モデリングにおける自己回帰モデルの成功に触発されたこのパラダイムは、視覚生成において広く採用されている。
しかし,従来の自己回帰モデルに固有のシーケンシャルトークン・バイ・トケンデコーディング機構は推論効率を低下させ,その表現能力を保ちながら自己回帰視覚生成を高速化する,効率的かつ並列化可能なフレームワークRadarを提案する。
我々のアプローチは、視覚トークンが隣人との強い局所的依存と空間的相関を示すという観察に動機付けられており、これは標準的なラスタスキャンデコード命令で完全に活用されていない性質である。
具体的には、初期トークンを出発点として選択し、他のトークンは全て、この中心からの空間距離に応じて複数の同心円環に体系的にグループ化される。
生成は、内側から外側の領域へ環的に進行し、同じ環内の全てのトークンの並列予測を可能にする。
このデザインは、視覚シーンの構造的局所性と空間的コヒーレンスを保持するだけでなく、並列化を大幅に増加させる。
さらに,コンテクストが限定された同時トークン生成による不整合予測のリスクに対処するため,ネストした注意機構を導入する。
この機構はフォワードパス中に不可解な出力を動的に洗練し、エラーの蓄積を軽減し、モデル崩壊を防ぐ。
ラジアル並列予測と動的出力補正を統合することにより、Radarは生成効率を大幅に改善する。
関連論文リスト
- Learning to Expand Images for Efficient Visual Autoregressive Modeling [26.400433163290586]
本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
論文 参考訳(メタデータ) (2025-11-19T14:55:07Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。