論文の概要: Soft-Di[M]O: Improving One-Step Discrete Image Generation with Soft Embeddings
- arxiv url: http://arxiv.org/abs/2509.22925v1
- Date: Fri, 26 Sep 2025 20:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.938751
- Title: Soft-Di[M]O: Improving One-Step Discrete Image Generation with Soft Embeddings
- Title(参考訳): ソフトDi[M]O:ソフト埋め込みによるワンステップ離散画像生成の改善
- Authors: Yuanzhi Zhu, Xi Wang, Stéphane Lathuilière, Vicky Kalogeiton,
- Abstract要約: Masked Diffusion Models (MDMs) から蒸留した1ステップの発電機は、複数のサンプリングステップを1つの前方パスに圧縮する。
彼らは教師からモデリングバイアスを受け継ぎ、それぞれのトークンはブロック勾配の流れを出力する。
我々は、離散トークンをジェネレータの出力分布下で期待される埋め込みに置き換える単純な緩和であるソフト埋め込みを導入する。
- 参考スコア(独自算出の注目度): 35.979608265594685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-step generators distilled from Masked Diffusion Models (MDMs) compress multiple sampling steps into a single forward pass, enabling efficient text and image synthesis. However, they suffer two key limitations: they inherit modeling bias from the teacher, and their discrete token outputs block gradient flow, preventing post-distillation refinements such as adversarial training, reward-based fine-tuning, and Test-Time Embedding Optimization (TTEO). In this work, we introduce soft embeddings, a simple relaxation that replaces discrete tokens with the expected embeddings under the generator's output distribution. Soft embeddings preserve representation fidelity for one-step discrete generator while providing a fully differentiable continuous surrogate that is compatible with teacher backbones and tokenizer decoders. Integrating soft embeddings into the Di[M]O distillation framework (denoted Soft-Di[M]O) makes one-step generators end-to-end trainable and enables straightforward application of GAN-based refinement, differentiable reward fine-tuning, and TTEO. Empirically, across multiple MDM teachers (e.g., MaskBit, MaskGen), Soft-Di[M]O achieves state-of-the-art one-step results: improved class-to-image performance, a one-step FID of 1.56 on ImageNet-256 with GAN-based refinement, along with higher GenEval and HPS scores on text-to-image with reward fine-tuning, and further gains from TTEO.
- Abstract(参考訳): Masked Diffusion Models (MDMs) から蒸留した1ステップのジェネレータは、複数のサンプリングステップを1つの前方通過に圧縮し、効率的なテキストと画像合成を可能にする。
しかし、彼らは教師からモデリングバイアスを継承し、個々のトークンはブロック勾配の流れを出力し、逆行訓練、報酬ベースの微調整、テスト時間埋め込み最適化(TTEO)などの蒸留後の改善を防ぐ。
本研究では,離散トークンを生成器の出力分布下での予測埋め込みに置き換える簡易な緩和法であるソフト埋め込みを導入する。
ソフト埋め込みは、教師のバックボーンやトークンライザデコーダと互換性のある、完全に差別化可能な連続サロゲートを提供しながら、ワンステップの離散ジェネレータの表現忠実性を保っている。
Di[M]O蒸留フレームワーク(Soft-Di[M]O)にソフト埋め込みを組み込むことで、ワンステップジェネレータをエンドツーエンドで訓練可能とし、GANベースの精錬、微分可能な報酬微調整、TTEOの簡単な適用を可能にした。
複数のMDM教師(例: MaskBit, MaskGen)の間で、Soft-Di[M]Oは、最先端のワンステップの結果を得る: クラス・ツー・イメージのパフォーマンスの改善、画像Net-256上の1ステップのFIDの1.56と、GANベースの改善、そして、報酬を微調整したテキスト・ツー・イメージのGenEvalとHPSスコアの向上、TTEOのさらなる向上。
関連論文リスト
- Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator [22.88494918435088]
Masked Diffusion Models (MDM) は強力な生成モデリング手法として登場した。
マスク拡散モデルを1ステップ生成器に蒸留する新しい手法であるDi$mathtt[M]$Oを提案する。
クラス条件およびテキスト条件画像生成におけるDi$mathtt[M]$Oの有効性を示す。
論文 参考訳(メタデータ) (2025-03-19T17:36:54Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。