論文の概要: When Few Steps Are Enough: Training-Free Acceleration of Identity-Preserved Generation
- arxiv url: http://arxiv.org/abs/2605.09460v1
- Date: Sun, 10 May 2026 10:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.26095
- Title: When Few Steps Are Enough: Training-Free Acceleration of Identity-Preserved Generation
- Title(参考訳): わずかなステップが十分である場合: アイデンティティ保存生成のトレーニング不要な高速化
- Authors: Dongqi Zheng,
- Abstract要約: アイデンティティ保存画像生成は通常、多段階拡散バックボーン上に構築される。
このコストは、アイデンティティ条件付きFLUX生成では不要であることが多い。
冷凍されたInfuseNetIDアダプタは、蒸留したシュネルのバックボーンに直接、再トレーニングせずに移動するよう訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identity-preserved image generation is typically built on many-step diffusion backbones, making personalized generation expensive at deployment time. We show that this cost is often unnecessary for identity-conditioned FLUX generation. A frozen InfuseNet identity adapter trained with dev transfers directly to the distilled schnell backbone without retraining. This two-line replacement -- changing the backbone path and disabling classifier-free guidance -- reduces latency by 5.9x while improving ArcFace identity similarity by +0.028 and lpips by -0.016 over the standard 28-step dev baseline. To explain why this works, we analyze the denoising trajectory and find that identity fidelity enters an early effective regime, often within 4-8 steps, while later steps primarily refine visual detail, sharpness, and contrast. Adapter ablations confirm that identity formation depends on the identity adapter, while attention-stream norm probes suggest that the relative conditioning contribution decreases as sampling proceeds. Preliminary style-adapter and object-adapter sweeps on SDXL and SD1.5 show similar diminishing returns after intermediate steps. These results position distilled backbone replacement as a simple, training-free strategy for improving the efficiency-fidelity tradeoff of identity-preserved generation.
- Abstract(参考訳): アイデンティティを保存するイメージ生成は、通常、多段階の拡散バックボーン上に構築され、デプロイ時にパーソナライズされた生成が高価になる。
このコストは、アイデンティティ条件付きFLUX生成では不要であることが多い。
冷凍されたInfuseNetIDアダプタは、蒸留したシュネルのバックボーンに直接、再トレーニングせずに移動するよう訓練された。
この2行の置き換え -- バックボーンパスを変更し、分類子なしのガイダンスを無効にする -- はレイテンシを5.9倍削減し、ArcFaceのID類似性は+0.028倍、lpipsは-0.016倍改善した。
この動作の理由を説明するために、偏見の軌跡を分析し、アイデンティティの忠実度が初期の有効状態に入り、しばしば4~8ステップ以内となるのに対して、後続のステップは主に視覚的詳細、鋭さ、コントラストを洗練させる。
アダプタ・エイブレーションはアイデンティティ形成がIDアダプタに依存していることを確認する一方、注意流ノルムプローブはサンプリングが進むにつれて相対的条件付けの寄与が減少することを示唆している。
SDXL と SD1.5 のプリミナリー・スタイル・アダプタとオブジェクト・アダプタ・スイープは、中間段階の後に同様に減少するリターンを示す。
これらの結果から, 蒸留後骨置換法は, アイデンティティ保存世代における効率-忠実トレードオフを改善するための, 単純で訓練不要な戦略として位置づけられた。
関連論文リスト
- MeInTime: Bridging Age Gap in Identity-Preserving Face Restoration [24.354251784441217]
MeInTimeは拡散ベースの顔復元手法で、参照ベースの復元を同年齢から異年齢まで拡張する。
劣化した入力に対応する年齢プロンプトとともに1つまたは数個の参照画像が与えられた場合、MeInTimeはアイデンティティの忠実さと年齢の一貫性の両方で忠実な復元を達成する。
論文 参考訳(メタデータ) (2026-03-19T09:11:07Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - FastFace: Tuning Identity Preservation in Distilled Diffusion via Guidance and Attention [3.0248879829045388]
蒸留により加速される拡散モデルに対するID適応器の学習自由化の課題に対処する。
我々は、アイデンティティの類似性と忠実性を改善するために、ユニバーサルなFastFaceフレームワークを提案する。
また,ID保存アダプタのための公開評価プロトコルも開発している。
論文 参考訳(メタデータ) (2025-05-27T12:55:55Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。