論文の概要: From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
- arxiv url: http://arxiv.org/abs/2512.24639v1
- Date: Wed, 31 Dec 2025 05:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.580233
- Title: From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
- Title(参考訳): 連続から空間へ:効率的な視覚生成のための自己回帰を並べ替える
- Authors: Siyang Wang, Hanting Li, Wei Li, Jie Hu, Xinghao Chen, Feng Zhao,
- Abstract要約: 自動回帰視覚生成を高速化する,効率的かつ並列化可能なフレームワークであるRadARを提案する。
提案手法は,視覚的トークンが局所的な強い依存度や空間的相関性を示すという観察に動機付けられ,その特性は標準スキャン復号命令で十分に活用されていない。
- 参考スコア(独自算出の注目度): 26.867135297190064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the remarkable success of autoregressive models in language modeling, this paradigm has been widely adopted in visual generation. However, the sequential token-by-token decoding mechanism inherent in traditional autoregressive models leads to low inference efficiency.In this paper, we propose RadAR, an efficient and parallelizable framework designed to accelerate autoregressive visual generation while preserving its representational capacity. Our approach is motivated by the observation that visual tokens exhibit strong local dependencies and spatial correlations with their neighbors--a property not fully exploited in standard raster-scan decoding orders. Specifically, we organize the generation process around a radial topology: an initial token is selected as the starting point, and all other tokens are systematically grouped into multiple concentric rings according to their spatial distances from this center. Generation then proceeds in a ring-wise manner, from inner to outer regions, enabling the parallel prediction of all tokens within the same ring. This design not only preserves the structural locality and spatial coherence of visual scenes but also substantially increases parallelization. Furthermore, to address the risk of inconsistent predictions arising from simultaneous token generation with limited context, we introduce a nested attention mechanism. This mechanism dynamically refines implausible outputs during the forward pass, thereby mitigating error accumulation and preventing model collapse. By integrating radial parallel prediction with dynamic output correction, RadAR significantly improves generation efficiency.
- Abstract(参考訳): 言語モデリングにおける自己回帰モデルの成功に触発されたこのパラダイムは、視覚生成において広く採用されている。
しかし,従来の自己回帰モデルに固有のシーケンシャルトークン・バイ・トケンデコーディング機構は推論効率を低下させ,その表現能力を保ちながら自己回帰視覚生成を高速化する,効率的かつ並列化可能なフレームワークRadarを提案する。
我々のアプローチは、視覚トークンが隣人との強い局所的依存と空間的相関を示すという観察に動機付けられており、これは標準的なラスタスキャンデコード命令で完全に活用されていない性質である。
具体的には、初期トークンを出発点として選択し、他のトークンは全て、この中心からの空間距離に応じて複数の同心円環に体系的にグループ化される。
生成は、内側から外側の領域へ環的に進行し、同じ環内の全てのトークンの並列予測を可能にする。
このデザインは、視覚シーンの構造的局所性と空間的コヒーレンスを保持するだけでなく、並列化を大幅に増加させる。
さらに,コンテクストが限定された同時トークン生成による不整合予測のリスクに対処するため,ネストした注意機構を導入する。
この機構はフォワードパス中に不可解な出力を動的に洗練し、エラーの蓄積を軽減し、モデル崩壊を防ぐ。
ラジアル並列予測と動的出力補正を統合することにより、Radarは生成効率を大幅に改善する。
関連論文リスト
- Learning to Expand Images for Efficient Visual Autoregressive Modeling [26.400433163290586]
本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
論文 参考訳(メタデータ) (2025-11-19T14:55:07Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Multi-scale Autoregressive Models are Laplacian, Discrete, and Latent Diffusion Models in Disguise [0.6875312133832079]
反復リファインメントフレームワークのレンズを通して、Visual Auto Regressiveモデルを再考する。
我々はこれをラプラシア様式の潜伏ピラミッドを構成する決定論的前方過程として定式化し、学習された後方過程と組み合わせて少数の粗大なステップで再構成する。
論文 参考訳(メタデータ) (2025-10-03T09:05:38Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Autoregressive Image Generation with Randomized Parallel Decoding [28.352741116124538]
本稿では,ランダム化並列生成が可能な新しい視覚自己回帰モデルであるARPGを紹介する。
ARPGは推論の30倍以上の高速化と、メモリ消費の75%削減を実現している。
ImageNet-1K 256ベンチマークでは、32ステップのサンプリングでFIDが1.83に達した。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。