論文の概要: Delta Score Matters! Spatial Adaptive Multi Guidance in Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.26503v1
- Date: Wed, 29 Apr 2026 10:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.349809
- Title: Delta Score Matters! Spatial Adaptive Multi Guidance in Diffusion Models
- Title(参考訳): デルタスコア問題!拡散モデルにおける空間適応型マルチガイダンス
- Authors: Haosen Li, Wenshuo Chen, Lei Wang, Shaofeng Liang, Bowen Tian, Soning Lai, Yutao Yue,
- Abstract要約: 拡散モデルは、複雑な静的および時間的視覚の合成において顕著な成功を収めた。
標準アーキテクチャ-CFG(Free Guidance)は、グローバルな一様スカラーに依存している。
この増幅は、文書化された「デテールアーティファクトジレンマ」でモデルをトラップする
本研究では,Spatial Adaptive Multi Guidance (SAMG)を提案する。
- 参考スコア(独自算出の注目度): 8.570762845568995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have achieved remarkable success in synthesizing complex static and temporal visuals, a breakthrough largely driven by Classifier-Free Guidance (CFG). However, despite its pivotal role in aligning generated content with textual prompts, standard CFG relies on a globally uniform scalar. This homogeneous amplification traps models in a well-documented "detail-artifact dilemma": low guidance scales fail to inject intricate semantics, while high scales inevitably cause structural degradation, color over-saturation, and temporal inconsistencies in videos. In this paper, we expose the physical root of this flaw through the lens of differential geometry. By analyzing Tweedie's Formula, we reveal that CFG intrinsically performs a tangential linear extrapolation. Because the natural data manifold is highly curved, this uniform linear step introduces a severe orthogonal deviation. To keep the generation trajectory safely bounded, we formulate a theoretical upper bound for spatial and adaptive guidance. Based on these geometric insights, we propose Spatial Adaptive Multi Guidance (SAMG), a training-free and virtually zero-cost sampling algorithm. SAMG dynamically computes point-wise conditional guidance energy, applying a conservative minimum scale to high-energy boundary regions to preserve delicate micro-textures, while deploying an aggressive maximum scale in low-energy regions to maximize semantic injection. Extensive experiments across diverse image (SD 1.5, SDXL, SD3.5 Medium) and video (CogVideoX, ModelScope) architectures demonstrate that SAMG effectively resolves the detail-artifact dilemma, achieving superior semantic alignment, structural integrity, and temporal smoothness without any computational overhead.
- Abstract(参考訳): 拡散モデルは複雑な静的および時間的視覚の合成において顕著な成功を収めた。
しかし、生成されたコンテンツをテキストのプロンプトと整合させる上で重要な役割を担っているにもかかわらず、標準CFGはグローバルに均一なスカラーに依存している。
低いガイダンススケールは複雑なセマンティクスを注入できないが、高スケールは必然的に構造劣化、色過飽和、時間的不整合を引き起こす。
本稿では,この欠陥の物理的根源を微分幾何学のレンズで明らかにする。
ツイーディの公式を解析することにより、CFGが本質的に有意線型外挿を行うことを明らかにした。
自然データ多様体は高度に湾曲しているため、この一様線型ステップは厳密な直交偏差をもたらす。
生成軌道を安全に拘束するために、空間的および適応的な誘導のための理論上界を定式化する。
これらの幾何学的知見に基づいて、トレーニング不要で事実上ゼロコストのサンプリングアルゴリズムであるSpatial Adaptive Multi Guidance (SAMG)を提案する。
SAMGは、高エネルギー境界領域に保守的な最小スケールを適用して、微妙なマイクロテクスチャを保存するとともに、セマンティックインジェクションを最大化するために低エネルギー領域にアグレッシブな最大スケールを配置する。
多様な画像 (SD 1.5, SDXL, SD3.5 Medium) とビデオ (CogVideoX, ModelScope) アーキテクチャの広範な実験により、SAMG はディテール・アーティファクトのジレンマを効果的に解決し、より優れたセマンティックアライメント、構造的整合性、時間的滑らかさを計算オーバーヘッドなく実現している。
関連論文リスト
- Better with Less: Tackling Heterogeneous Multi-Modal Image Joint Pretraining via Conditioned and Degraded Masked Autoencoder [34.73963627819185]
高分解能光合成開口レーダ(SAR)プレトレーニングは、単一ソース表現を相互に強化するために、モダリティの相乗効果を求める。
我々は、アライメントの少ないテキスト・ベッター・シナジーの先駆者であるCoDe-MAEを提案する。
CoDe-MAEは、表現の劣化を防ぎ、多様な単一および双方向の下流タスクにまたがる新しい最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2026-04-18T10:23:00Z) - A Hybrid Conditional Diffusion-DeepONet Framework for High-Fidelity Stress Prediction in Hyperelastic Materials [0.0]
cDDPM-DeepONetは、UNetのバックボーン上に構築された条件付き拡散確率モデルである。
修正されたDeepONetは、グローバルなスケーリングパラメータを予測し、フル解像度の物理的ストレスマップの再構築を可能にする。
提案したモデルは、UNet、DeepONet、スタンドアロンのcDDPMベースラインを1~2桁上回っている。
論文 参考訳(メタデータ) (2026-03-18T19:20:51Z) - DVD: Deterministic Video Depth Estimation with Generative Priors [87.46576463137801]
DVDは、事前訓練されたビデオ拡散モデルをシングルパス深度回帰器に適応させる最初のフレームワークである。
DVDは、最先端のゼロショットのパフォーマンスをベンチマークで達成する。
私たちはパイプラインを完全にリリースし、オープンソースコミュニティに利益をもたらすために、SOTAビデオ深度推定のためのトレーニングスイート全体を提供しています。
論文 参考訳(メタデータ) (2026-03-12T17:58:06Z) - Manifold-Optimal Guidance: A Unified Riemannian Control View of Diffusion Guidance [21.903550549566575]
本稿では,局所最適制御問題としてガイダンスを再構成する枠組みを提案する。
MOGはクローズドな幾何対応の更新を行い、再トレーニングを必要とせずにオフマニフォールドのドリフトを補正する。
論文 参考訳(メタデータ) (2026-03-12T03:51:32Z) - Latent Iterative Refinement Flow: A Geometric-Constrained Approach for Few-Shot Generation [5.062604189239418]
少ショット生成に対する新しいアプローチであるLIRF(Latent Iterative Refinement Flow)を導入する。
LIRFは,新しいtextbfmanifold保存損失をトレーニングしたオートエンコーダを用いて,安定な潜伏空間を確立する。
このサイクルの中で、候補サンプルは幾何的テクスチャ補正演算子によって洗練される。
論文 参考訳(メタデータ) (2025-09-24T08:57:21Z) - Classifier-Free Guidance: From High-Dimensional Analysis to Generalized Guidance Forms [22.44946627454133]
CFGは十分に高次元かつ無限次元のターゲット分布を正確に再現することを示す。
我々は、この性質、特に非線形CFG一般化を享受するガイダンスが多数存在することを示す。
本研究は,最先端拡散モデルとフローマッチングモデルを用いて,クラス条件とテキスト・ツー・イメージ生成の実験により検証した。
論文 参考訳(メタデータ) (2025-02-11T10:29:29Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Gravitational Approach for Rigid Point Set Registration with
Ordinary Differential Equations [79.71184760864507]
本稿では,FGA(Fast Gravitational Approach)と呼ばれる厳密な点集合アライメントのための物理に基づく新しい手法を紹介する。
FGAでは、ソースとターゲットの点集合は、シミュレーションされた重力場内を移動しながら、世界規模で多重リンクされた方法で相互作用する質量を持つ剛体粒子群として解釈される。
従来のアライメント手法では,新しいメソッドクラスには特徴がないことを示す。
論文 参考訳(メタデータ) (2020-09-28T15:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。