論文の概要: SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2602.05534v1
- Date: Thu, 05 Feb 2026 10:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.892565
- Title: SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation
- Title(参考訳): SSG:マルチスケール視覚自己回帰生成のための空間誘導
- Authors: Youngwoo Shin, Jiwan Hur, Junmo Kim,
- Abstract要約: 視覚自己回帰モデル(VAR)は次のスケールの予測を通じて画像を生成する。
実際には、この階層はキャパシティの制限と累積誤差によってモデルが粗いから細かい性質から逸脱してしまうため、推論時にドリフトすることができる。
本研究では,グローバルなコヒーレンスを維持しつつ,意図した階層に向けて生成を行うためのトレーニング不要な推論時間ガイダンスであるスケールド空間ガイダンス(SSG)を提案する。
- 参考スコア(独自算出の注目度): 10.295970926059812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual autoregressive (VAR) models generate images through next-scale prediction, naturally achieving coarse-to-fine, fast, high-fidelity synthesis mirroring human perception. In practice, this hierarchy can drift at inference time, as limited capacity and accumulated error cause the model to deviate from its coarse-to-fine nature. We revisit this limitation from an information-theoretic perspective and deduce that ensuring each scale contributes high-frequency content not explained by earlier scales mitigates the train-inference discrepancy. With this insight, we propose Scaled Spatial Guidance (SSG), training-free, inference-time guidance that steers generation toward the intended hierarchy while maintaining global coherence. SSG emphasizes target high-frequency signals, defined as the semantic residual, isolated from a coarser prior. To obtain this prior, we leverage a principled frequency-domain procedure, Discrete Spatial Enhancement (DSE), which is devised to sharpen and better isolate the semantic residual through frequency-aware construction. SSG applies broadly across VAR models leveraging discrete visual tokens, regardless of tokenization design or conditioning modality. Experiments demonstrate SSG yields consistent gains in fidelity and diversity while preserving low latency, revealing untapped efficiency in coarse-to-fine image generation. Code is available at https://github.com/Youngwoo-git/SSG.
- Abstract(参考訳): 視覚自己回帰(VAR)モデルは、人間の知覚を反映した粗大で高速で高忠実な合成を自然に達成し、次のスケールの予測を通じて画像を生成する。
実際には、この階層はキャパシティの制限と累積誤差によってモデルが粗いから細かい性質から逸脱してしまうため、推論時にドリフトすることができる。
我々は、この制限を情報理論の観点から再考し、各スケールが、以前のスケールで説明されていない高周波コンテンツに寄与することを保証することで、列車の干渉の相違を緩和する。
そこで本研究では,グローバルコヒーレンスを維持しつつ,意図した階層に向けて,学習不要で推論時間のガイダンスであるスケールド空間ガイダンス(SSG)を提案する。
SSGは、セマンティック残基として定義されたターゲットの高周波信号を強調し、前もって粗い部分から分離した。
そこで本研究では,周波数対応構築による意味的残差の鮮明化と分離を図るために,周波数領域法である離散空間強調法(DSE)を応用した。
SSGは、トークン化設計や条件付モダリティに関わらず、離散的な視覚トークンを活用するVARモデル全体に広く適用される。
実験では、SSGは低レイテンシを保ちながら、忠実度と多様性が一貫した向上を示し、粗い画像生成における未解決の効率を明らかにする。
コードはhttps://github.com/Youngwoo-git/SSG.comで入手できる。
関連論文リスト
- HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models [82.10385962490051]
生成拡散モデルは、データ拡張の約束を示す。
きめ細かいタスクにそれらを適用することは、重大な課題である。
HiGFAは階層的な信頼性駆動型オーケストレーションであり、多様なが忠実な合成画像を生成する。
論文 参考訳(メタデータ) (2025-11-16T10:46:16Z) - Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement [89.99237142387655]
LH-VAEを導入し、視覚的意味的制約や進行的劣化による意味的堅牢性を高める。
Latent Harmonyは、UHD修復のためのVAEを再定義する2段階のフレームワークである。
実験により、Latent HarmonyはUHDおよび標準解像度タスクにまたがって最先端のパフォーマンスを実現し、効率、知覚品質、再現精度を効果的にバランスさせることが示されている。
論文 参考訳(メタデータ) (2025-10-09T08:54:26Z) - STAF: Sinusoidal Trainable Activation Functions for Implicit Neural Representation [7.2888019138115245]
Inlicit Neural Representations (INR) は、連続的な信号をモデリングするための強力なフレームワークとして登場した。
ReLUベースのネットワークのスペクトルバイアスは、十分に確立された制限であり、ターゲット信号の微細な詳細を捕捉する能力を制限する。
Sinusoidal Trainable Function Activation (STAF)について紹介する。
STAFは本質的に周波数成分を変調し、自己適応型スペクトル学習を可能にする。
論文 参考訳(メタデータ) (2025-02-02T18:29:33Z) - Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [35.56845917727121]
自己誘導(SG)は、低品質サンプルの生成を抑えることにより、生成画像の品質を著しく向上させることができる。
SGは、異なる雑音レベルにおける元の拡散または流れモデルのサンプリングスコア関数に依存する。
我々は、異なるアーキテクチャでテキスト・ツー・イメージとテキスト・ツー・ビデオ生成に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-12-08T06:32:27Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。