論文の概要: Duality Models: An Embarrassingly Simple One-step Generation Paradigm
- arxiv url: http://arxiv.org/abs/2602.17682v1
- Date: Wed, 04 Feb 2026 17:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.513995
- Title: Duality Models: An Embarrassingly Simple One-step Generation Paradigm
- Title(参考訳): Duality Models: 恥ずかしいほどシンプルなワンステップ生成パラダイム
- Authors: Peng Sun, Xinyi Shang, Tao Lin, Zhiqiang Shen,
- Abstract要約: 「入力1つ、出力1つ」のパラダイムは、トレーニング予算の分割を強制する。
多段階の目的に十分なサンプルを割り当てると、数段階の世代は訓練されていない。
本稿では,DuMo(Duality Models)を「1つの入力,2つの出力」パラダイムで提案する。
- 参考スコア(独自算出の注目度): 46.10673908377537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency-based generative models like Shortcut and MeanFlow achieve impressive results via a target-aware design for solving the Probability Flow ODE (PF-ODE). Typically, such methods introduce a target time $r$ alongside the current time $t$ to modulate outputs between a local multi-step derivative ($r = t$) and a global few-step integral ($r = 0$). However, the conventional "one input, one output" paradigm enforces a partition of the training budget, often allocating a significant portion (e.g., 75% in MeanFlow) solely to the multi-step objective for stability. This separation forces a trade-off: allocating sufficient samples to the multi-step objective leaves the few-step generation undertrained, which harms convergence and limits scalability. To this end, we propose Duality Models (DuMo) via a "one input, dual output" paradigm. Using a shared backbone with dual heads, DuMo simultaneously predicts velocity $v_t$ and flow-map $u_t$ from a single input $x_t$. This applies geometric constraints from the multi-step objective to every sample, bounding the few-step estimation without separating training objectives, thereby significantly improving stability and efficiency. On ImageNet 256 $\times$ 256, a 679M Diffusion Transformer with SD-VAE achieves a state-of-the-art (SOTA) FID of 1.79 in just 2 steps. Code is available at: https://github.com/LINs-lab/DuMo
- Abstract(参考訳): ShortcutやMeanFlowのような一貫性ベースの生成モデルは、Probability Flow ODE(PF-ODE)を解決するためのターゲット認識設計を通じて、素晴らしい結果を得る。
通常、そのような方法は現在の時間$t$と共に目標時間$r$を導入して、局所的な多段階微分(r = t$)とグローバルな数段階積分(r = 0$)の間の出力を変調する。
しかし、従来の"1入力1アウトプット"パラダイムでは、トレーニング予算の分割を強制し、多くの場合、重要な部分(例えば、MeanFlowの75%)を安定性の多段階目標にのみ割り当てる。
この分離はトレードオフを強制する: 十分なサンプルを多段階の目的に割り当てることによって、数段階の世代が訓練され、収束とスケーラビリティの制限を損なう。
この目的のために、我々はDuMo(Duality Models)を「1つの入力、二重出力」パラダイムで提案する。
2つのヘッドを持つ共有バックボーンを使用して、DuMoは同時にベロシティ$v_t$とフローマップ$u_t$を単一の入力$x_t$から予測する。
これは、多段階の目的から各サンプルに幾何的制約を適用し、訓練対象を分離せずに数段階の見積もりを境界にすることで、安定性と効率を大幅に改善する。
ImageNet 256 $\times$ 256では、SD-VAE付き679M拡散変換器が2ステップで1.79の最先端(SOTA)FIDを達成する。
コードは、https://github.com/LINs-lab/DuMoで入手できる。
関連論文リスト
- Meta Flow Maps enable scalable reward alignment [22.109809498990362]
生成モデルの制御には計算コストがかかる。
これは、推論時ステアリングや微調整による報酬関数の最適アライメントが、値関数を推定することを要求するためである。
フレームワークの一貫性モデルであるMeta Flow Map (MFM)を導入し、フローマップをシステムの拡張に適用する。
論文 参考訳(メタデータ) (2026-01-20T19:39:56Z) - TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows [25.487712175353035]
1ステップ生成モデルをトレーニングするフレームワークであるTwinFlowを提案する。
本手法は,テキスト・ツー・イメージタスクにおいて1-NFEで0.83のGenEvalスコアを得る。
提案手法は,GenEval および DPG-Bench ベンチマーク上でのオリジナルの 100-NFE モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-12-03T07:45:46Z) - Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models [100.28111930893188]
今日の最高の生成モデルの中には、単一の可能性を計算するために、数百から数千の神経機能評価を必要とするものもあります。
本研究では, 高速流動継手蒸留法 (F2D2) を提案し, サンプリングに必要なNFEの数を2桁に減らした。
F2D2はモジュール構造であり、既存のフローベースの数ステップサンプリングモデルと互換性がある。
論文 参考訳(メタデータ) (2025-12-02T10:48:20Z) - Improved Mean Flows: On the Challenges of Fastforward Generative Models [81.10827083963655]
MeanFlow (MF)は、最近ワンステップ生成モデリングのフレームワークとして確立されている。
ここでは、トレーニング目標とガイダンスメカニズムの両方において、重要な課題に対処する。
我々の改革により、より標準的な回帰問題が発生し、訓練安定性が向上する。
全体として、スクラッチから完全にトレーニングされた$textbfimproved MeanFlow$$(textbfiMF$)メソッドは、ImageNet 256$times$256上の単一の関数評価(1-NFE)で$textbf1.72$ FIDを達成する。
論文 参考訳(メタデータ) (2025-12-01T18:59:49Z) - AlphaFlow: Understanding and Improving MeanFlow Models [74.64465762009475]
その結果,MeanFlowの目的は,トラジェクティブフローマッチングとトラジェクトリ一貫性という2つの部分に分けられることがわかった。
これらの知見に触発されて、軌跡フローマッチング、ショートカットモデル、MeanFlowを統一する目的の広いファミリーである$alpha$-Flowを紹介した。
クラス条件のImageNet-1K 256x256をバニラのDiTバックボーンでスクラッチからトレーニングすると、$alpha$-Flowはスケールと設定でMeanFlowを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-23T17:45:06Z) - Marginal Flow: a flexible and efficient framework for density estimation [6.94175385834858]
現在の密度モデリングアプローチは、高価なトレーニング、遅い推論、近似可能性、モード崩壊、アーキテクチャ制約の少なくとも1つの欠点に悩まされている。
これらの制限を完全に克服する、シンプルで強力なフレームワークを提案する。
パラメトリック分布を$q(x|w)$とし、遅延パラメータを$w$とするモデルとして$q_theta(x)$を定義する。
遅延変数$w$を直接最適化する代わりに、学習可能なディストリビューション$q_theta(w)$から$w$をサンプリングしてマージナルフロー(Marginal Flow)と名付けることで、それらをマージライズします。
論文 参考訳(メタデータ) (2025-09-30T13:21:13Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。