論文の概要: TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
- arxiv url: http://arxiv.org/abs/2512.05150v1
- Date: Wed, 03 Dec 2025 07:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.757389
- Title: TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
- Title(参考訳): TwinFlow: 自己逆流を伴う大規模モデル上での一段階生成を実現する
- Authors: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin,
- Abstract要約: 1ステップ生成モデルをトレーニングするフレームワークであるTwinFlowを提案する。
本手法は,テキスト・ツー・イメージタスクにおいて1-NFEで0.83のGenEvalスコアを得る。
提案手法は,GenEval および DPG-Bench ベンチマーク上でのオリジナルの 100-NFE モデルの性能と一致する。
- 参考スコア(独自算出の注目度): 25.487712175353035
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by $100\times$ with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.
- Abstract(参考訳): 大規模マルチモーダル生成モデルの最近の進歩は、画像やビデオ生成を含む多モーダル生成において印象的な能力を示している。
これらのモデルは通常、拡散やフローマッチングといった多段階のフレームワーク上に構築され、推論効率を本質的に制限する(40-100の関数数評価(NFE)を要求)。
様々な数ステップの手法が推論を加速することを目的としているが、既存の解には明確な制限がある。
プログレッシブ蒸留やコンシステンシー蒸留のような主要な蒸留法は、反復蒸留法を必要とするか、非常に少ないステップで顕著な劣化を示す(4-NFE)。
一方、対向トレーニングを蒸留(例えば、DMD/DMD2、SANA-Sprint)に統合することで、性能を向上させることで、トレーニング不安定性、複雑さの追加、補助的なトレーニングモデルによる高いGPUメモリオーバーヘッドがもたらされる。
この目的のためにTwinFlowを提案する。TwinFlowは1段階生成モデルの学習をシンプルかつ効果的に行うためのフレームワークで、教師モデルの固定化を回避し、トレーニング中に標準的な敵ネットワークを回避し、大規模かつ効率的なモデルを構築するのに最適である。
SANA-Sprint (GAN損失ベースフレームワーク) や RCGM (一貫性ベースフレームワーク) などの強力なベースラインを上回り, 1-NFE における GenEval スコア 0.83 を達成する。
特に,Qwen-Image-20B上でのフルパラメータトレーニングによりTwinFlowのスケーラビリティを実証し,効率的な数ステップ生成器に変換する。
1-NFEでは、GenEvalベンチマークとDPG-Benchベンチマークの両方で100-NFEモデルの性能に一致し、計算コストを100\times$で削減し、品質劣化を小さくする。
プロジェクトページはhttps://zhenglin-cheng.com/twinflow.comで公開されている。
関連論文リスト
- Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models [100.28111930893188]
今日の最高の生成モデルの中には、単一の可能性を計算するために、数百から数千の神経機能評価を必要とするものもあります。
本研究では, 高速流動継手蒸留法 (F2D2) を提案し, サンプリングに必要なNFEの数を2桁に減らした。
F2D2はモジュール構造であり、既存のフローベースの数ステップサンプリングモデルと互換性がある。
論文 参考訳(メタデータ) (2025-12-02T10:48:20Z) - Adversarial Flow Models [26.917627135225118]
本稿では,逆流モデルとフローモデルを統一する生成モデルのクラスである逆流モデルを提案する。
本手法は, ネイティブなワンステップ生成やマルチステップ生成をサポートし, 対角目標を用いて学習する。
56層モデルと112層モデルにおいて,中間的監督を伴わない深度反復によるエンドツーエンドトレーニングの可能性を示す。
論文 参考訳(メタデータ) (2025-11-27T14:04:08Z) - Flow-Anchored Consistency Models [32.04797599813587]
継続的一貫性モデル(CM)は効率的な数ステップ生成を約束するが、トレーニングの不安定さに直面する。
確率流を横断するショートカットのみを学習するようにネットワークを訓練することで、モデルがフローを定義する瞬間的な速度場を把握できなくなる。
本稿では,フローマッチングタスクをメインのCMショートカット目的のアンカーとして使用する,シンプルかつ効果的なトレーニング戦略であるフローアンコール一貫性モデル(FACM)を紹介する。
論文 参考訳(メタデータ) (2025-07-04T17:56:51Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.8959351616076745]
フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文 参考訳(メタデータ) (2024-12-22T07:48:49Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。