論文の概要: STRIDE: Training-Free Diversity Guidance via PCA-Directed Feature Perturbation in Single-Step Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.11494v1
- Date: Tue, 12 May 2026 04:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.568152
- Title: STRIDE: Training-Free Diversity Guidance via PCA-Directed Feature Perturbation in Single-Step Diffusion Models
- Title(参考訳): STRIDE: 単段拡散モデルにおけるPCAによる特徴摂動による学習自由度誘導
- Authors: Ankit Yadav, Arpit Garg, Ta Duc Huy, Lingqiao Liu,
- Abstract要約: 我々は、数ステップモデルにおける効果的な多様性注入は、モデルの学習された特徴幾何学を尊重する摂動を必要とすると主張している。
本研究では,1つのフォワードパスで動作可能な,トレーニング不要かつ最適化不要なSTRIDEを提案する。
- 参考スコア(独自算出の注目度): 29.580811134498987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilled one-step (T=1) or few-step (T$\leq$4) diffusion models enable real-time image generation but often exhibit reduced sample diversity compared to their multi-step counterparts. In multi-step diffusion, diversity can be introduced through schedules, trajectories, or iterative optimization; however, these mechanisms are unavailable in the few-step or single-step setting, limiting the effectiveness of existing diversity-enhancing methods. A natural alternative is to perturb intermediate features, but naive feature perturbation is often ineffective, either yielding limited diversity gains or degrading generation quality. We argue that effective diversity injection in few-step models requires perturbations that respect the model's learned feature geometry. Based on this insight, we propose STRIDE, a training-free and optimization-free method that operates in a single forward pass. STRIDE injects spatially coherent (pink) noise into intermediate transformer features, projected onto the principal components of the model's own activations, ensuring that perturbations lie on the learned feature manifold. This design enables controlled variation along meaningful directions in the representation space. Extensive experiments on FLUX.1-schnell and SD3.5 Turbo across COCO, DrawBench, PartiPrompts, and GenEval show that STRIDE consistently improves diversity while maintaining strong text alignment. In particular, STRIDE reduces intra-batch similarity with minimal impact on CLIP score, and Pareto-dominates existing training-free baselines on the diversity-fidelity frontier. These results highlight that, in the absence of iterative refinement, improving diversity in few-step and one-step diffusion depends not on increasing perturbation strength, but on aligning perturbations with the model's internal representation structure.
- Abstract(参考訳): 蒸留ワンステップ (T=1) または数ステップ (T$\leq$4) 拡散モデルにより、リアルタイムな画像生成が可能だが、多段階に比べてサンプルの多様性が低下することが多い。
多段階拡散では、スケジュール、軌跡、反復最適化を通じて多様性を導入することができるが、これらのメカニズムはいくつかのステップや単一ステップでは利用できないため、既存の多様性向上手法の有効性が制限される。
自然な代替手段は摂動の中間的特徴であるが、ナイーブな特徴摂動は、限られた多様性のゲインを得るか、世代品質を劣化させるかのいずれかで、しばしば非効率である。
我々は、数ステップモデルにおける効果的な多様性注入は、モデルの学習された特徴幾何学を尊重する摂動を必要とすると主張している。
この知見に基づいて,1つのフォワードパスで動作するトレーニングフリーかつ最適化フリーなSTRIDEを提案する。
STRIDEは、空間的コヒーレント(ピンク)ノイズを中間変換器の特徴に注入し、モデル自身のアクティベーションの主成分に投影し、摂動が学習された特徴多様体上にあることを保証する。
この設計は、表現空間における意味のある方向に沿って制御された変動を可能にする。
FLUX.1-schnell と SD3.5 Turbo のCOCO、DrawBench、PartiPrompts、GenEval での大規模な実験は、STRIDE が強いテキストアライメントを維持しながら常に多様性を向上していることを示している。
特にSTRIDEは、CLIPスコアに対する最小限の影響でバッチ内類似度を減少させ、Pareto-は多様性と忠実性のフロンティアにおける既存のトレーニングフリーベースラインを支配している。
これらの結果は,反復的洗練がなければ,数ステップの多様性の向上と1ステップの拡散は,摂動強度の増大ではなく,モデルの内部表現構造と摂動の整合性に依存することを示した。
関連論文リスト
- Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Diversity Has Always Been There in Your Visual Autoregressive Models [78.27363151940996]
Visual Autoregressive (VAR)モデルは、最近、革新的な次世代の予測パラダイムに対して大きな注目を集めている。
それらの効率にもかかわらず、VARモデルは、数段階の蒸留拡散モデルで観察されたような多様性の崩壊に悩まされることが多い。
本稿では、VARモデルの生成多様性を、追加のトレーニングを必要とせずに復元する、シンプルで効果的なアプローチであるDiverse VARを紹介する。
論文 参考訳(メタデータ) (2025-11-21T09:24:09Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Ensembling Diffusion Models via Adaptive Feature Aggregation [14.663257610094625]
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
本稿では,様々な状態に応じて複数のモデルのコントリビューションを動的に調整するアダプティブ・フィーチャー・アグリゲーション(AFA)を提案する。
論文 参考訳(メタデータ) (2024-05-27T11:55:35Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。