論文の概要: CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models
- arxiv url: http://arxiv.org/abs/2509.24526v1
- Date: Mon, 29 Sep 2025 09:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.905167
- Title: CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models
- Title(参考訳): CMT: 一貫性, 平均フロー, フローマップモデルの効率的な学習のための中等教育
- Authors: Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon,
- Abstract要約: Consistency Models (CM) や Mean Flow (MF) のようなフローマップモデルは、拡散モデルのODE解の長い跳躍を学習することで、少数のステップ生成を可能にする。
本研究では,(拡散)事前学習と最終フローマップトレーニングの間に,軽量な中間段階を挿入する最初の概念と実践的手法であるミドルトレーニングを紹介する。
- 参考スコア(独自算出の注目度): 75.81132530657682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow map models such as Consistency Models (CM) and Mean Flow (MF) enable few-step generation by learning the long jump of the ODE solution of diffusion models, yet training remains unstable, sensitive to hyperparameters, and costly. Initializing from a pre-trained diffusion model helps, but still requires converting infinitesimal steps into a long-jump map, leaving instability unresolved. We introduce mid-training, the first concept and practical method that inserts a lightweight intermediate stage between the (diffusion) pre-training and the final flow map training (i.e., post-training) for vision generation. Concretely, Consistency Mid-Training (CMT) is a compact and principled stage that trains a model to map points along a solver trajectory from a pre-trained model, starting from a prior sample, directly to the solver-generated clean sample. It yields a trajectory-consistent and stable initialization. This initializer outperforms random and diffusion-based baselines and enables fast, robust convergence without heuristics. Initializing post-training with CMT weights further simplifies flow map learning. Empirically, CMT achieves state of the art two step FIDs: 1.97 on CIFAR-10, 1.32 on ImageNet 64x64, and 1.84 on ImageNet 512x512, while using up to 98% less training data and GPU time, compared to CMs. On ImageNet 256x256, CMT reaches 1-step FID 3.34 while cutting total training time by about 50% compared to MF from scratch (FID 3.43). This establishes CMT as a principled, efficient, and general framework for training flow map models.
- Abstract(参考訳): Consistency Models (CM) や Mean Flow (MF) のようなフローマップモデルは、拡散モデルのODE解の長い跳躍を学習することで、少数のステップ生成を可能にするが、トレーニングは不安定であり、ハイパーパラメータに敏感であり、コストがかかる。
事前訓練された拡散モデルから初期化することは有用であるが、無限小のステップを長いジャンプマップに変換する必要があり、不安定性は未解決のままである。
視覚生成のための(拡散)事前学習と最終フローマップトレーニング(後学習)の間に軽量な中間段階を挿入する最初の概念と実践的手法であるミドルトレーニングを導入する。
具体的には、CMT(Consistency Mid-Training, Consistency Mid-Training)は、モデルに事前訓練されたモデルからソルバ生成したクリーンサンプルに直接、ソルバ軌道に沿った点をマッピングするように訓練する、コンパクトで原則化されたステージである。
軌道に一貫性があり、安定な初期化をもたらす。
この初期化器はランダムおよび拡散ベースラインより優れ、ヒューリスティックスなしで高速で堅牢な収束を可能にする。
CMT重みによるポストトレーニングの初期化は、フローマップ学習をさらに単純化する。
CMTは、CIFAR-10の1.97、ImageNet 64x64の1.32、ImageNet 512x512の1.84という最先端の2ステップFIDを実現している。
ImageNet 256x256では、CMTは1ステップのFID 3.34に到達し、総トレーニング時間をスクラッチからMF(FID 3.43)と比較して約50%削減した。
これにより、CMTは、フローマップモデルをトレーニングするための原則的、効率的、そして一般的なフレームワークとして確立される。
関連論文リスト
- Flow-Anchored Consistency Models [32.04797599813587]
継続的一貫性モデル(CM)は効率的な数ステップ生成を約束するが、トレーニングの不安定さに直面する。
確率流を横断するショートカットのみを学習するようにネットワークを訓練することで、モデルがフローを定義する瞬間的な速度場を把握できなくなる。
本稿では,フローマッチングタスクをメインのCMショートカット目的のアンカーとして使用する,シンプルかつ効果的なトレーニング戦略であるフローアンコール一貫性モデル(FACM)を紹介する。
論文 参考訳(メタデータ) (2025-07-04T17:56:51Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models [7.254959022456085]
一貫性モデル(CM)は、高速サンプリングのための拡散ベース生成モデルの強力なクラスである。
既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。
本稿では,拡散モデルとCMの過去のパラメータ化を統一し,不安定性の根本原因を同定する簡易な理論フレームワークを提案する。
CIFAR-10では2.06点、ImageNet 64x64では1.48点、ImageNet 512x512では1.88点のFIDスコアを達成し、FIDスコアの差を狭める。
論文 参考訳(メタデータ) (2024-10-14T20:43:25Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。