論文の概要: Spectral Guidance for Flexible and Efficient Control of Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.28900v1
- Date: Wed, 27 May 2026 15:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.038206
- Title: Spectral Guidance for Flexible and Efficient Control of Diffusion Models
- Title(参考訳): 拡散モデルのフレキシブルかつ効率的な制御のためのスペクトル誘導
- Authors: Gabriel Moreira, Manuel Marques, João Paulo Costeira, Chenyan Xiong,
- Abstract要約: 生成過程の内在的幾何を利用して拡散モデルを制御するためのフレームワークであるスペクトル誘導を導入する。
本研究では,条件付き期待演算子の特異関数として特徴付け,自己指導的目的によって学習可能であることを示す。
- 参考スコア(独自算出の注目度): 25.912824880444262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Spectral Guidance, a framework for controlling diffusion models by leveraging the intrinsic geometry of the generative process. As data is progressively corrupted by noise, only a small number of features remain informative for control. We characterize them as the singular functions of a conditional expectation operator and show that they can be learned via a self-supervised objective. Once recovered, this basis enables the projection of arbitrary guidance signals, such as labels, CLIP embeddings, or masks, directly onto the sampling trajectory. This approach allows for stable, high-fidelity control without retraining or denoiser backpropagation during sampling. Empirically, we improve conditional accuracy on CIFAR-10 by 37 percentage points over the strongest training-free baseline while offering $4\times$ faster sampling. Moreover, the same representations that support label and CLIP guidance also enable spatial control, such as mask-based guidance, without auxiliary models. Finally, our framework reveals a phase transition in the generative process, pinpointing the optimal time window for effective guidance.
- Abstract(参考訳): 生成過程の内在的幾何を利用して拡散モデルを制御するためのフレームワークであるスペクトル誘導を導入する。
データがノイズによって徐々に劣化するので、制御するためには少数の機能しか情報として残っていない。
本研究では,条件付き期待演算子の特異関数として特徴付け,自己指導的目的によって学習可能であることを示す。
一旦回復すると、この基盤は、ラベル、CLIP埋め込み、マスクなどの任意の誘導信号をサンプリング軌道に直接投影することができる。
このアプローチは、サンプリング中にリトレーニングやデファイザのバックプロパゲーションを行わずに、安定した高忠実度制御を可能にする。
CIFAR-10の条件精度を最強のトレーニングフリーベースラインよりも37ポイント向上し,より高速なサンプリングを4ドル以上提供した。
さらに、ラベルとCLIPガイダンスをサポートする同じ表現は、補助モデルなしでマスクベースのガイダンスのような空間制御を可能にする。
最後に、本フレームワークは生成過程における位相遷移を明らかにし、効率的なガイダンスのための最適な時間窓をピンポイントする。
関連論文リスト
- Exploring the Limits of End-to-End Feature-Affinity Propagation for Single-Point Supervised Infrared Small Target Detection [6.7126559398433665]
単一点制御赤外線小ターゲット検出(IRSTD)は、高密度アノテーションのコストを大幅に削減する。
現在のSOTA(State-of-the-art)手法は、マスクの監督を明示的でオフラインな擬似ラベル構成によって回収することにより、高精度を実現する。
最小限の代替策として、オンラインのポイント・ツー・マスク・イン・バッチ、ポイント・アンカレド・フィーチャー・アフィニティ・プロパゲーションを通じて、ポイント・ツー・マスクをオンラインに生成する手法について検討する。
論文 参考訳(メタデータ) (2026-05-01T15:08:46Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - General and Efficient Steering of Unconditional Diffusion [25.225845714398364]
非条件拡散を効率的に操るレシピを提案する。
推測中は 勾配誘導なしで
本手法は拡散モデル構造に関する2つの観測に基づいて構築されている。
CIFAR-10、ImageNet、CelebAの実験では、精度/品質のオーバーベース勾配ガイダンスが改善された。
論文 参考訳(メタデータ) (2026-02-11T21:58:26Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - RAAG: Ratio Aware Adaptive Guidance [9.525432706814675]
フローベースの生成モデルは驚くべき進歩を遂げた。
推論全体を通じて強力な、固定されたガイダンススケールを適用することは、現代的なアプリケーションに必要な、迅速な、数ステップのサンプリングには適していない。
本稿では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型指導スケジュールを提案する。
論文 参考訳(メタデータ) (2025-08-05T13:41:05Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Readout Guidance: Learning Control from Diffusion Features [96.22155562120231]
本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。
Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。
これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。
論文 参考訳(メタデータ) (2023-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。