論文の概要: SpectralAR: Spectral Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2506.10962v1
- Date: Thu, 12 Jun 2025 17:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.896158
- Title: SpectralAR: Spectral Autoregressive Visual Generation
- Title(参考訳): SpectralAR: スペクトル自己回帰視覚生成
- Authors: Yuanhui Huang, Weiliang Chen, Wenzhao Zheng, Yueqi Duan, Jie Zhou, Jiwen Lu,
- Abstract要約: 本稿では、スペクトルの観点から視覚系列の因果性を実現するためのスペクトル自己回帰視覚生成フレームワークを提案する。
我々のSpectralARは、画像のさまざまな詳細レベルを考慮し、配列因果性とトークン効率の両方をベルとホイッスルなしで達成します。
- 参考スコア(独自算出の注目度): 74.48368364895387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive visual generation has garnered increasing attention due to its scalability and compatibility with other modalities compared with diffusion models. Most existing methods construct visual sequences as spatial patches for autoregressive generation. However, image patches are inherently parallel, contradicting the causal nature of autoregressive modeling. To address this, we propose a Spectral AutoRegressive (SpectralAR) visual generation framework, which realizes causality for visual sequences from the spectral perspective. Specifically, we first transform an image into ordered spectral tokens with Nested Spectral Tokenization, representing lower to higher frequency components. We then perform autoregressive generation in a coarse-to-fine manner with the sequences of spectral tokens. By considering different levels of detail in images, our SpectralAR achieves both sequence causality and token efficiency without bells and whistles. We conduct extensive experiments on ImageNet-1K for image reconstruction and autoregressive generation, and SpectralAR achieves 3.02 gFID with only 64 tokens and 310M parameters. Project page: https://huang-yh.github.io/spectralar/.
- Abstract(参考訳): 自己回帰視覚生成は、拡散モデルと比較してスケーラビリティと他のモダリティとの互換性のため、注目を集めている。
既存のほとんどの手法は、自己回帰生成のための空間パッチとして視覚シーケンスを構築している。
しかし、画像パッチは本質的に平行であり、自己回帰モデリングの因果性に矛盾する。
そこで本研究では,スペクトルの観点から視覚系列の因果性を実現するためのスペクトル自己回帰(Spectral AutoRegressive, SpectralAR)視覚生成フレームワークを提案する。
具体的には、まず画像をNested Spectral Tokenizationを用いて、低周波数成分から高周波数成分を表す順序付きスペクトルトークンに変換する。
次に、スペクトルトークンのシーケンスと粗い方法で自己回帰生成を行う。
我々のSpectralARは、画像のさまざまな詳細レベルを考慮し、配列因果性とトークン効率の両方をベルとホイッスルなしで達成します。
我々は画像再構成と自己回帰生成のために ImageNet-1K 上で広範囲に実験を行い、SpectralAR は 64 個のトークンと 310M 個のパラメータで 3.02 gFID を達成する。
プロジェクトページ:https://huang-yh.github.io/spectralar/。
関連論文リスト
- HyperspectralMAE: The Hyperspectral Imagery Classification Model using Fourier-Encoded Dual-Branch Masked Autoencoder [0.04332259966721321]
ハイパースペクトル画像は、豊富なスペクトルの詳細を提供するが、空間領域とスペクトル領域の両方において、その高次元性のためにユニークな課題を提起する。
テキストマスキング戦略を用いたハイパースペクトルデータのためのトランスフォーマーベースモデルであるtextitHyperspectralMAE を提案する。
ハイパースペクトルMAEは、二重次元事前学習が頑健なスペクトル空間表現をもたらすことを確認し、インドパインズの最先端の伝達学習精度を達成する。
論文 参考訳(メタデータ) (2025-05-09T01:16:42Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Any-Resolution AI-Generated Image Detection by Spectral Learning [36.562914181733426]
我々は、実画像のスペクトル分布が、AI生成画像検出のための不変パターンと高識別パターンの両方を構成するというキーとなる考え方を構築した。
提案手法は, これまでの13の世代的アプローチと比較して, AUCの絶対的な改善を5.5%達成している。
論文 参考訳(メタデータ) (2024-11-28T23:55:19Z) - Spectrum Translation for Refinement of Image Generation (STIG) Based on
Contrastive Learning and Spectral Filter Profile [15.5188527312094]
生成した画像の周波数領域における相違を緩和する枠組みを提案する。
これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。
我々は,STIGの有効性を実証するために,8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-03-08T06:39:24Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - Specformer: Spectral Graph Neural Networks Meet Transformers [51.644312964537356]
スペクトルグラフニューラルネットワーク(GNN)は、スペクトル領域グラフ畳み込みを通じてグラフ表現を学習する。
本稿では、全ての固有値の集合を効果的に符号化し、スペクトル領域で自己アテンションを行うSpecformerを紹介する。
複数のSpecformerレイヤを積み重ねることで、強力なスペクトルGNNを構築することができる。
論文 参考訳(メタデータ) (2023-03-02T07:36:23Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。