論文の概要: SoftCFG: Uncertainty-guided Stable Guidance for Visual Autoregressive Model
- arxiv url: http://arxiv.org/abs/2510.00996v2
- Date: Thu, 02 Oct 2025 09:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.630749
- Title: SoftCFG: Uncertainty-guided Stable Guidance for Visual Autoregressive Model
- Title(参考訳): SoftCFG: 視覚的自己回帰モデルのための不確実性誘導安定誘導
- Authors: Dongli Xu, Aleksei Tiulpin, Matthew B. Blaschko,
- Abstract要約: 自己回帰(AR)モデルは、画像を離散トークンのシーケンスとしてモデル化することで、画像生成のための強力なツールとして登場した。
本論文では,不確実性誘導型推論手法であるSoftCFGを提案する。
実験により、SoftCFGは、自己回帰モデルにおいて、標準CFGとImageNet 256*256の最先端FIDよりも画像品質を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 17.298633197256024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) models have emerged as powerful tools for image generation by modeling images as sequences of discrete tokens. While Classifier-Free Guidance (CFG) has been adopted to improve conditional generation, its application in AR models faces two key issues: guidance diminishing, where the conditional-unconditional gap quickly vanishes as decoding progresses, and over-guidance, where strong conditions distort visual coherence. To address these challenges, we propose SoftCFG, an uncertainty-guided inference method that distributes adaptive perturbations across all tokens in the sequence. The key idea behind SoftCFG is to let each generated token contribute certainty-weighted guidance, ensuring that the signal persists across steps while resolving conflicts between text guidance and visual context. To further stabilize long-sequence generation, we introduce Step Normalization, which bounds cumulative perturbations of SoftCFG. Our method is training-free, model-agnostic, and seamlessly integrates with existing AR pipelines. Experiments show that SoftCFG significantly improves image quality over standard CFG and achieves state-of-the-art FID on ImageNet 256*256 among autoregressive models.
- Abstract(参考訳): 自己回帰(AR)モデルは、画像を離散トークンのシーケンスとしてモデル化することで、画像生成のための強力なツールとして登場した。
条件生成を改善するためにCFG(Classifier-Free Guidance)が採用されているが、ARモデルにおけるその応用は2つの主要な問題に直面している。
これらの課題に対処するために,順応的摂動を全トークンに分散する不確実性誘導型推論法であるSoftCFGを提案する。
SoftCFGの背景にある重要な考え方は、生成されたトークンが一定の重み付けされたガイダンスに寄与し、信号がステップ間で持続し、テキストガイダンスと視覚的コンテキストの衝突を解決することである。
長周期生成をさらに安定させるために、SoftCFGの累積摂動を束縛するステップ正規化を導入する。
我々の方法は、トレーニング不要で、モデルに依存しず、既存のARパイプラインとシームレスに統合される。
実験により、SoftCFGは標準CFGよりも画像品質を著しく改善し、自己回帰モデルの中で ImageNet 256*256 の最先端 FID を実現することが示された。
関連論文リスト
- Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。
A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。
多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-26T16:40:22Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Entropy Rectifying Guidance for Diffusion and Flow Models [27.673559391846524]
Entropy Rectifying Guidance (ERG) は、最先端拡散変圧器アーキテクチャの注意機構における推定時間変化に基づく、シンプルで効果的な誘導機構である。
ERGは、テキスト・ツー・イメージ、クラス・コンディショナル、および非コンディショナル画像生成などの様々な生成タスクにおいて、大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-04-18T10:15:33Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。