論文の概要: Hyperspherical Latents Improve Continuous-Token Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2509.24335v1
- Date: Mon, 29 Sep 2025 06:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.787463
- Title: Hyperspherical Latents Improve Continuous-Token Autoregressive Generation
- Title(参考訳): 超球状潜水剤による連続型自己回帰生成の改善
- Authors: Guolin Ke, Hui Xue,
- Abstract要約: 自己回帰(AR)モデルは画像生成に期待できるが、連続学習のARモデルは遅延拡散やマスク世代モデルに追随することが多い。
本稿では,ARデコード時に増幅されるVAEラテントの不均一な分散問題に対処するために,SphereARを提案する。
理論解析により,超球面制約がスケール成分を除去し,ARデコーディングを安定化させることが示された。
- 参考スコア(独自算出の注目度): 13.664450684805535
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autoregressive (AR) models are promising for image generation, yet continuous-token AR variants often trail latent diffusion and masked-generation models. The core issue is heterogeneous variance in VAE latents, which is amplified during AR decoding, especially under classifier-free guidance (CFG), and can cause variance collapse. We propose SphereAR to address this issue. Its core design is to constrain all AR inputs and outputs -- including after CFG -- to lie on a fixed-radius hypersphere (constant $\ell_2$ norm), leveraging hyperspherical VAEs. Our theoretical analysis shows that hyperspherical constraint removes the scale component (the primary cause of variance collapse), thereby stabilizing AR decoding. Empirically, on ImageNet generation, SphereAR-H (943M) sets a new state of the art for AR models, achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54 and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge, this is the first time a pure next-token AR image generator with raster order surpasses diffusion and masked-generation models at comparable parameter scales.
- Abstract(参考訳): 自己回帰(AR)モデルは画像生成に期待できるが、連続学習のARモデルは遅延拡散やマスク世代モデルに追随することが多い。
中心となる問題は、AR復号時に増幅されるVAE潜伏剤の不均一な分散であり、特に分類器フリーガイダンス(CFG)の下では分散が崩壊する可能性がある。
我々はこの問題に対処するためにSphereARを提案する。
その中核となる設計は、全AR入力と出力(CFG以降を含む)を固定半径超球(現在の$\ell_2$ノルム)に制限し、超球型VAEを活用することである。
我々の理論解析は,超球面制約がスケール成分(分散崩壊の原因)を除去し,ARデコーディングを安定化させることを示した。
ImageNet生成では、SphereAR-H (943M) がARモデルの新たな最先端を設定、FID 1.34を達成している。
SphereAR-L (479M) は FID 1.54 に到達し、SphereAR-B (208M) は 1.92 に到達し、MAR-H (943M, 1.55) やVAR-d30 (2B, 1.92) など、はるかに大きなベースラインに一致するか超える。
我々の知る限り、ラスターオーダーを持つ純粋な次世代ARイメージジェネレータは、同じパラメータスケールで拡散およびマスクされた世代モデルを超えるのは、これが初めてである。
関連論文リスト
- Scale-Wise VAR is Secretly Discrete Diffusion [48.994983608261286]
次なるスケール予測 Visual Autoregressive Generation (VAR) は、拡散ベースモデルを超えながら、最近顕著な性能を示した。
本稿では,VARを再検討し,マルコフの注意マスクを装着した場合,VARは離散拡散と数学的に等価であることを示す。
本稿では, 繰り返し改良やVARへのアーキテクチャ不効率の低減, 収束の高速化, 推論コストの低減, ゼロショット再構成の改善など, 拡散の利点を直接インポートする方法を示す。
論文 参考訳(メタデータ) (2025-09-26T17:58:04Z) - DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer [32.64616770377737]
DC-ARは、マスク付き自己回帰(AR)テキスト・ツー・イメージ生成フレームワークである。
優れた画像生成品質と計算効率を両立させる。
論文 参考訳(メタデータ) (2025-07-07T12:45:23Z) - Multi-scale Image Super Resolution with a Single Auto-Regressive Model [40.77470215283583]
視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
我々の知る限りでは、量子化器が様々なスケールで意味的に一貫した残留を強制するために訓練されたのはこれが初めてである。
本モデルでは, LR画像と超解像を, 1回の前方通過で, 目標値の半値と全値でデノマイズすることができる。
論文 参考訳(メタデータ) (2025-06-05T13:02:23Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching [12.985270202599814]
自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成することができるのか?
本研究では,ガウス分布から事前学習されたARモデルの出力分布への決定論的マッピングを生成するために,フローマッチングを用いたDD(Distilled Decoding)を提案する。
論文 参考訳(メタデータ) (2024-12-22T20:21:54Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。
提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。
HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:42Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Unsupervised Single Image Super-resolution Under Complex Noise [60.566471567837574]
本稿では,一般のSISRタスクを未知の劣化で扱うためのモデルベースunsupervised SISR法を提案する。
提案手法は, より小さなモデル (0.34M vs. 2.40M) だけでなく, より高速な技術 (SotA) 法 (約1dB PSNR) の現況を明らかに超えることができる。
論文 参考訳(メタデータ) (2021-07-02T11:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。