論文の概要: A one-step generation model with a Single-Layer Transformer: Layer number re-distillation of FreeFlow
- arxiv url: http://arxiv.org/abs/2601.11630v1
- Date: Wed, 14 Jan 2026 03:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.226599
- Title: A one-step generation model with a Single-Layer Transformer: Layer number re-distillation of FreeFlow
- Title(参考訳): 単層変圧器を用いた一段階生成モデル:FreeFlowの層数再蒸留
- Authors: Haonan Wei, Linyuan Wang, Nuolin Sun, Zhizhong Zheng, Lei Li, Bin Yan,
- Abstract要約: フローマッチング法は拡散モデルの反復生成過程を数ステップまたは1ステップに圧縮することを目的としている。
SLT(Single-Layer Transformer)を提案する。28層教師の深度的特徴進化を近似するために,1つの共有DiTブロックを用いる。
教師モデルの2つのランダムサンプリングに匹敵する時間予算内では,100以上のノイズスクリーニングを行い,高品質なサンプルを生成する。
- 参考スコア(独自算出の注目度): 8.218012443007062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, Flow matching methods aim to compress the iterative generation process of diffusion models into a few or even a single step, with MeanFlow and FreeFlow being representative achievements of one-step generation based on Ordinary Differential Equations (ODEs). We observe that the 28-layer Transformer architecture of FreeFlow can be characterized as an Euler discretization scheme for an ODE along the depth axis, where the layer index serves as the discrete time step. Therefore, we distill the number of layers of the FreeFlow model, following the same derivation logic as FreeFlow, and propose SLT (Single-Layer Transformer), which uses a single shared DiT block to approximate the depth-wise feature evolution of the 28-layer teacher. During training, it matches the teacher's intermediate features at several depth patches, fuses those patch-level representations, and simultaneously aligns the teacher's final velocity prediction. Through distillation training, we compress the 28 independent Transformer Blocks of the teacher model DiT-XL/2 into a single Transformer Block, reducing the parameter count from 675M to 4.3M. Furthermore, leveraging its minimal parameters and rapid sampling speed, SLT can screen more candidate points in the noise space within the same timeframe, thereby selecting higher-quality initial points for the teacher model FreeFlow and ultimately enhancing the quality of generated images. Experimental results demonstrate that within a time budget comparable to two random samplings of the teacher model, our method performs over 100 noise screenings and produces a high-quality sample through the teacher model using the selected points. Quality fluctuations caused by low-quality initial noise under a limited number of FreeFlow sampling calls are effectively avoided, substantially improving the stability and average generation quality of one-step generation.
- Abstract(参考訳): 現在、フローマッチング手法は、拡散モデルの反復生成プロセスを数ステップまたは1ステップに圧縮することを目的としており、MeanFlowとFreeFlowは通常の微分方程式(ODE)に基づいた1ステップ生成の代表的な成果である。
我々は,FreeFlowの28層トランスフォーマーアーキテクチャが,層指数が離散時間ステップとなる深さ軸に沿ったODEのオイラー離散化スキームとして特徴付けられることを観察した。
そこで我々は,FreeFlowモデルと同じ導出論理に従うFreeFlowモデルの層数を蒸留し,SLT(Single-Layer Transformer)を提案する。
トレーニング中は、教師の中間的特徴をいくつかの深度パッチで一致させ、これらのパッチレベルの表現を融合させ、同時に教師の最終速度予測を調整する。
蒸留訓練により,教師モデルDiT-XL/2の28個の独立したトランスフォーマーブロックを1個のトランスフォーマーブロックに圧縮し,パラメータ数を675Mから4.3Mに削減した。
さらに、その最小パラメータと高速サンプリング速度を利用して、SLTは、同じ時間枠内のノイズ空間の候補点をより多く表示し、教師モデルFreeFlowの高品質な初期点を選択し、最終的に生成された画像の品質を向上することができる。
実験の結果、教師モデルのランダムサンプリングに匹敵する時間予算で、100以上のノイズスクリーニングを行い、選択した点を用いて教師モデルを通して高品質なサンプルを生成することがわかった。
限られた数のFreeFlowサンプリングコールの下での低品質初期ノイズによる品質変動を効果的に回避し、ワンステップ生成の安定性と平均生成品質を大幅に改善する。
関連論文リスト
- SoFlow: Solution Flow Models for One-Step Generative Modeling [10.054000663262618]
Flow Models (SoFlow)は、一段階生成をスクラッチから行うためのフレームワークである。
フローマッチングの損失により、トレーニング中に推定速度場を提供できる。
我々のモデルは、ImageNet 256x256データセット上のMeanFlowモデルよりも優れたFID-50Kスコアを達成する。
論文 参考訳(メタデータ) (2025-12-17T18:10:17Z) - Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models [100.28111930893188]
今日の最高の生成モデルの中には、単一の可能性を計算するために、数百から数千の神経機能評価を必要とするものもあります。
本研究では, 高速流動継手蒸留法 (F2D2) を提案し, サンプリングに必要なNFEの数を2桁に減らした。
F2D2はモジュール構造であり、既存のフローベースの数ステップサンプリングモデルと互換性がある。
論文 参考訳(メタデータ) (2025-12-02T10:48:20Z) - Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories [14.36205662558203]
Rectified MeanFlowは、単一のリフローステップのみを使用して、修正された軌道に沿った平均速度場をモデル化するフレームワークである。
64、256、および512の解像度でのImageNetの実験では、Re-MeanFlowは、サンプルの品質とトレーニング効率の両方で、一段階の蒸留法とRectified Flow法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-28T16:50:08Z) - OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows [59.052955667723985]
可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
論文 参考訳(メタデータ) (2025-10-03T20:40:30Z) - Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。
本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文 参考訳(メタデータ) (2025-07-20T03:08:06Z) - ODE$_t$(ODE$_l$): Shortcutting the Time and Length in Diffusion and Flow Models for Faster Sampling [33.87434194582367]
本研究では,品質・複雑さのトレードオフを動的に制御できる相補的な方向について検討する。
我々は,フローマッチングトレーニング中に時間と長さの整合性項を用い,任意の時間ステップでサンプリングを行うことができる。
従来の技術と比較すると、CelebA-HQとImageNetのイメージ生成実験は、最も効率的なサンプリングモードで最大3$times$のレイテンシの低下を示している。
論文 参考訳(メタデータ) (2025-06-26T18:59:59Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。