論文の概要: Diversity Has Always Been There in Your Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2511.17074v1
- Date: Fri, 21 Nov 2025 09:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.955355
- Title: Diversity Has Always Been There in Your Visual Autoregressive Models
- Title(参考訳): 多様性は常に視覚的自己回帰モデルにある
- Authors: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li,
- Abstract要約: Visual Autoregressive (VAR)モデルは、最近、革新的な次世代の予測パラダイムに対して大きな注目を集めている。
それらの効率にもかかわらず、VARモデルは、数段階の蒸留拡散モデルで観察されたような多様性の崩壊に悩まされることが多い。
本稿では、VARモデルの生成多様性を、追加のトレーニングを必要とせずに復元する、シンプルで効果的なアプローチであるDiverse VARを紹介する。
- 参考スコア(独自算出の注目度): 78.27363151940996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
- Abstract(参考訳): Visual Autoregressive(VAR)モデルは、従来のマルチステップ自動回帰(AR)や拡散モデルと比較して、推論効率と画質の両方に顕著な利点をもたらす、革新的な次世代の予測パラダイムにおいて、近年大きな注目を集めている。
しかしながら、その効率にもかかわらず、VARモデルは、しばしば多様性の崩壊、すなわち、数段階の蒸留拡散モデルで観察されたものと類似した出力の変動性の減少に悩まされる。
本稿では,VARモデルの生成多様性を,追加のトレーニングを必要とせずに復元する,シンプルかつ効果的なアプローチであるDiverseVARを紹介する。
本分析により,早期の多様性形成を規定する重要な要因として,特徴マップの重要部分を明らかにした。
モデル入力における中心成分の抑制とモデル出力における増幅により、DiverseVARは高忠実度合成を保ちながら、VARモデル固有の生成ポテンシャルを効果的に解放する。
実験結果から,本手法は無視可能な性能の影響のみを伴って生成多様性を著しく向上させることが示された。
私たちのコードはhttps://github.com/wangtong627/DiverseVARで公開されます。
関連論文リスト
- Your VAR Model is Secretly an Efficient and Explainable Generative Classifier [19.629406299980463]
視覚自己回帰モデリングの最近の進歩に基づく新しい生成モデルを提案する。
VAR法は拡散法と根本的に異なる性質を示す。
特に, VARに基づく分類器は, 難易度が高いため, トークン単位の相互情報による視覚的説明が可能である。
論文 参考訳(メタデータ) (2025-10-14T01:59:01Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Ensembling Diffusion Models via Adaptive Feature Aggregation [14.663257610094625]
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
本稿では,様々な状態に応じて複数のモデルのコントリビューションを動的に調整するアダプティブ・フィーチャー・アグリゲーション(AFA)を提案する。
論文 参考訳(メタデータ) (2024-05-27T11:55:35Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。