論文の概要: Nested AutoRegressive Models
- arxiv url: http://arxiv.org/abs/2510.23028v1
- Date: Mon, 27 Oct 2025 05:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.464684
- Title: Nested AutoRegressive Models
- Title(参考訳): Nested AutoRegressive Models
- Authors: Hongyu Wu, Xuhui Fan, Zhangkai Wu, Longbing Cao,
- Abstract要約: 画像生成において,ネストされたAutoRegressiveアーキテクチャを提案するNested AutoRegressive(NestAR)モデルを提案する。
NestARは、計算コストを大幅に削減しながら、競争力のある画像生成性能を達成する。
- 参考スコア(独自算出の注目度): 31.60548236936739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AutoRegressive (AR) models have demonstrated competitive performance in image generation, achieving results comparable to those of diffusion models. However, their token-by-token image generation mechanism remains computationally intensive and existing solutions such as VAR often lead to limited sample diversity. In this work, we propose a Nested AutoRegressive~(NestAR) model, which proposes nested AutoRegressive architectures in generating images. NestAR designs multi-scale modules in a hierarchical order. These different scaled modules are constructed in an AR architecture, where one larger-scale module is conditioned on outputs from its previous smaller-scale module. Within each module, NestAR uses another AR structure to generate ``patches'' of tokens. The proposed nested AR architecture reduces the overall complexity from $\mathcal{O}(n)$ to $\mathcal{O}(\log n)$ in generating $n$ image tokens, as well as increases image diversities. NestAR further incorporates flow matching loss to use continuous tokens, and develops objectives to coordinate these multi-scale modules in model training. NestAR achieves competitive image generation performance while significantly lowering computational cost.
- Abstract(参考訳): AutoRegressive(AR)モデルは、画像生成において競合性能を示し、拡散モデルに匹敵する結果を達成している。
しかしながら、トークン・バイ・トークン画像生成機構は依然として計算集約的であり、VARのような既存のソリューションではサンプルの多様性が制限されることが多い。
本研究では,画像生成におけるネストされたAutoRegressiveアーキテクチャを提案するNested AutoRegressive~(NestAR)モデルを提案する。
NestARは階層的な順序でマルチスケールモジュールを設計する。
これらの異なるスケールモジュールはARアーキテクチャで構築されており、1つの大規模モジュールが以前の小規模モジュールの出力に条件付けされている。
各モジュール内では、NestARは別のAR構造を使用してトークンの‘patches’を生成する。
提案されたネストされたARアーキテクチャは、全体的な複雑さを$\mathcal{O}(n)$から$\mathcal{O}(\log n)$に減らし、画像のばらつきを増大させる。
NestARはさらに、フローマッチング損失を連続トークンの使用に取り入れ、モデルトレーニングにおいてこれらのマルチスケールモジュールを調整する目的を開発する。
NestARは、計算コストを大幅に削減しながら、競争力のある画像生成性能を達成する。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots [103.48424042986271]
本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:59:07Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - TensorAR: Refinement is All You Need in Autoregressive Image Generation [45.38495724606076]
Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。
拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。
本稿では,次世代の予測から次世代の予測へ変換する新たなARパラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:27:25Z) - ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models [37.65992612575692]
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
論文 参考訳(メタデータ) (2025-03-04T18:59:56Z) - Circuit Complexity Bounds for Visual Autoregressive Model [23.991344681741058]
本稿では,Visual AutoRegressive(VAR)モデルの回路複雑性について検討し,本研究におけるバウンダリを確立する。
我々の第一結果は、VARモデルは、隠蔽次元が$d leq O(n)$と$mathrmpoly(n)$精度の均一な$mathsfTC0$しきい値回路によるシミュレーションと等価であることを示した。
印象的な性能にもかかわらず、VARモデルの表現力の限界を厳格に強調する最初の研究である。
論文 参考訳(メタデータ) (2025-01-08T06:07:33Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。