論文の概要: One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration
- arxiv url: http://arxiv.org/abs/2605.21484v1
- Date: Wed, 20 May 2026 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.836097
- Title: One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration
- Title(参考訳): 固定点反復による離散拡散画像発生装置の一段階蒸留
- Authors: Chaoyang Wang, Yunhai Tong,
- Abstract要約: Fixed-Point Distillation (FPD) は、学生の1段階のドラフトを部分的に破損させ、1段階の教師ステップで修正することで、局所的な修正ターゲットを構築するエンドツーエンドのフレームワークである。
FPDは、単一の推論ステップにおいて、競争力のある視覚的忠実度と構造的整合性を達成し、マルチステップの教師とのギャップを狭める。
- 参考スコア(独自算出の注目度): 20.457786704615454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion models excel at visual synthesis but rely on slow, iterative decoding. Existing single-step distillation methods attempt to bypass this bottleneck, either by training auxiliary score networks that effectively double compute, or by introducing specialized parameterizations and multi-stage pipelines that fragment optimization. In this paper, we introduce Fixed-Point Distillation (FPD), an end-to-end framework that constructs local correction targets by partially corrupting the student's one-step draft and refining it with a single teacher step. To compute the training objective in a semantically meaningful space, we lift discrete tokens into continuous features and apply a multi-bandwidth drift loss that iteratively accumulates these corrections. To backpropagate through the discrete bottleneck, we employ a straight-through estimator that feeds exact hard-sampled tokens to the teacher and decoder during the forward pass, ensuring that training and inference operate on the same codebook manifold, while routing continuous gradients back to the student logits. This fully differentiable pathway additionally accommodates an optional unconditional adversarial objective to enhance perceptual realism. Evaluations on both class- and text-conditional generation validate the effectiveness of our framework. FPD achieves competitive visual fidelity and structural alignment within a single inference step, narrowing the gap to multi-step teachers while outperforming existing discrete distillation baselines.
- Abstract(参考訳): 離散拡散モデルは視覚合成に優れるが、遅い反復復号に依存する。
既存の1段階蒸留法は、効果的に2倍の計算を行う補助スコアネットワークのトレーニングや、最適化を断片化する特別なパラメータ化と多段階パイプラインの導入によって、このボトルネックを回避しようとする。
本稿では,学生の1段階の草稿を部分的に破損させて1段階の教師ステップで補修することで,局所的な修正対象を構築できる,固定点蒸留(FPD)を導入する。
意味論的に意味のある空間における学習目標を計算するため、離散トークンを連続的な特徴に引き上げ、これらの補正を反復的に蓄積するマルチバンド幅ドリフト損失を適用した。
離散的ボトルネックをバックプロパゲートするために、前方通過中に教師とデコーダに正確なハードサンプルトークンを供給し、トレーニングと推論を同じコードブック多様体上で動作させながら、連続的な勾配を学生ログにルーティングするストレートスルー推定器を用いる。
この完全に分化可能な経路は、また、知覚的リアリズムを強化するために、オプションの非条件の対向目的を許容する。
クラスおよびテキスト条件の生成による評価は、我々のフレームワークの有効性を検証する。
FPDは、単一の推論ステップにおいて、競争力のある視覚的忠実度と構造的整合性を達成し、既存の個別蒸留ベースラインを上回りながら、マルチステップの教師とのギャップを狭める。
関連論文リスト
- Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - Rethinking Vector Field Learning for Generative Segmentation [50.08025820235397]
生成的セグメンテーションのためのモデリング拡散モデルが注目されている。
ベクトル場学習の観点から拡散セグメンテーションを再考する。
本稿では,学習した消滅速度場を距離認識補正項で拡張するベクトル場再構成手法を提案する。
この補正は、誘引的相互作用と反発的相互作用の両方を導入し、元の拡散訓練フレームワークを保ちながら、セントロイド付近の勾配等級を増大させる。
論文 参考訳(メタデータ) (2026-03-19T17:58:19Z) - ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation [9.230247128710865]
本稿では,各段階における多様体一貫したガイダンスを統合した,学習自由拡散に基づくフレームワークを提案する。
ManifoldGDは、モデルの再トレーニングを必要とせずに、代表性、多様性、画像の忠実性を改善する。
論文 参考訳(メタデータ) (2026-02-26T18:07:10Z) - Generalized Discrete Diffusion with Self-Correction [20.435906948993022]
自己補正は、最小性能劣化を伴う離散拡散モデルにおける並列サンプリングの維持に有効な手法である。
本研究では,事前学習した自己補正を明示的な状態遷移で再構成し,離散時間で直接学習する自己補正拡散モデルを提案する。
我々のフレームワークは、トレーニングノイズスケジュールを簡素化し、冗長なリメイキングのステップを排除し、自己補正を学習するために一様遷移にのみ依存する。
論文 参考訳(メタデータ) (2026-02-13T04:12:35Z) - Stochastic Interpolants via Conditional Dependent Coupling [36.84747986070112]
既存の画像生成モデルは、計算と忠実性のトレードオフに関して重要な課題に直面している。
提案した条件依存結合戦略に基づく統合型多段階生成フレームワークを提案する。
生成過程を複数の段階で補間軌道に分解し、エンドツーエンドの最適化を可能にしながら正確な分布学習を保証する。
論文 参考訳(メタデータ) (2025-09-27T05:03:08Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。