論文の概要: Guiding Visual Autoregressive Models through Spectrum Weakening
- arxiv url: http://arxiv.org/abs/2511.22991v1
- Date: Fri, 28 Nov 2025 08:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.830793
- Title: Guiding Visual Autoregressive Models through Spectrum Weakening
- Title(参考訳): スペクトルウェイクニングによる視覚自己回帰モデルの誘導
- Authors: Chaoyang Wang, Tianmeng Yang, Jingdong Wang, Yunhai Tong,
- Abstract要約: 本稿では,視覚的自己回帰(AR)モデルのためのスペクトルウェアニングフレームワークを提案する。
これはスペクトル領域において制御可能な弱モデルを構築することによって達成される。
本手法は,条件生成の高速なアライメントを維持しつつ,高品質な非条件生成を可能にする。
- 参考スコア(独自算出の注目度): 44.26047250249648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance (CFG) has become a widely adopted and practical approach for enhancing generation quality and improving condition alignment. Recent studies have explored guidance mechanisms for unconditional generation, yet these approaches remain fundamentally tied to assumptions specific to diffusion models. In this work, we propose a spectrum-weakening framework for visual autoregressive (AR) models. This method works without the need for re-training, specific conditions, or any architectural modifications. It achieves this by constructing a controllable weak model in the spectral domain. We theoretically show that invertible spectral transformations preserve information, while selectively retaining only a subset of spectrum introduces controlled information reduction. Based on this insight, we perform spectrum selection along the channel dimension of internal representations, which avoids the structural constraints imposed by diffusion models. We further introduce two spectrum renormalization strategies that ensures numerical stability during the weakening process. Extensive experiments were conducted on both discrete and continuous AR models, with text or class conditioning. The results demonstrate that our method enables high-quality unconditional generation while maintaining strong prompt alignment for conditional generation.
- Abstract(参考訳): 分類器フリーガイダンス (CFG) は, 生成品質の向上と条件整合性向上のために広く採用され, 実践的アプローチとなっている。
最近の研究では、非条件生成の誘導機構が検討されているが、これらのアプローチは拡散モデルに固有の仮定と根本的に結びついている。
本研究では,視覚的自己回帰(AR)モデルのためのスペクトル弱化フレームワークを提案する。
この方法は、再トレーニング、特定の条件、アーキテクチャの変更を必要とせずに機能する。
これはスペクトル領域において制御可能な弱モデルを構築することによって達成される。
理論的には、可逆スペクトル変換は情報を保存するが、スペクトルのサブセットのみを選択的に保持することは、制御された情報還元をもたらす。
この知見に基づき、拡散モデルによる構造的制約を回避するため、内部表現のチャネル次元に沿ってスペクトル選択を行う。
さらに、弱化過程における数値安定性を保証する2つのスペクトル再正規化戦略を導入する。
テキストやクラス条件付きで、離散的および連続的なARモデルの両方で大規模な実験が行われた。
提案手法は, 条件付き生成の高速なアライメントを維持しつつ, 高品質な非条件生成を可能にすることを示す。
関連論文リスト
- ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [10.956556608715035]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では, 条件特徴のサンプリングスケジュールをデノナイジングプロセスから切り離すフレキシブルなトレーニングフリーフレームワークを提案する。
再調整スケジュールを導入することでサンプリングプロセスをさらに強化し、外観に富んだプロンプト戦略で視覚的品質を向上させる。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Simple Guidance Mechanisms for Discrete Diffusion Models [44.377206440698586]
我々は、均一ノイズを利用した新しい拡散モデルを開発し、その出力を連続的に編集できるため、より誘導可能である。
我々はこれらのモデルの品質を、最先端の性能をもたらす新しい連続時間変動下界で改善する。
論文 参考訳(メタデータ) (2024-12-13T15:08:30Z) - Classification of High-dimensional Time Series in Spectral Domain using Explainable Features [8.656881800897661]
本稿では,高次元定常時系列を分類するためのモデルに基づくアプローチを提案する。
我々のアプローチはモデルパラメータの解釈可能性を強調し、神経科学のような分野に特に適している。
我々の手法の新規性は、モデルパラメータの解釈可能性にあり、神経科学における重要なニーズに対処する。
論文 参考訳(メタデータ) (2024-08-15T19:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。