論文の概要: pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
- arxiv url: http://arxiv.org/abs/2510.14974v1
- Date: Thu, 16 Oct 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.007942
- Title: pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
- Title(参考訳): pi-Flow:イミテーション蒸留によるポリシベースのFew-Step生成
- Authors: Hansheng Chen, Kai Zhang, Hao Tan, Leonidas Guibas, Gordon Wetzstein, Sai Bi,
- Abstract要約: 数ステップの拡散またはフローベースの生成モデルは通常、速度予測教師を学生に蒸留する。
$pi$-Flowは、学生フローモデルの出力層を変更して、1ステップでネットワークフリーポリシーを予測する。
$pi$-Flowは、教師レベルの品質を維持しながら、最先端の数ステップメソッドよりもはるかに優れた多様性を実現する。
- 参考スコア(独自算出の注目度): 46.651851998342146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-step diffusion or flow-based generative models typically distill a velocity-predicting teacher into a student that predicts a shortcut towards denoised data. This format mismatch has led to complex distillation procedures that often suffer from a quality-diversity trade-off. To address this, we propose policy-based flow models ($\pi$-Flow). $\pi$-Flow modifies the output layer of a student flow model to predict a network-free policy at one timestep. The policy then produces dynamic flow velocities at future substeps with negligible overhead, enabling fast and accurate ODE integration on these substeps without extra network evaluations. To match the policy's ODE trajectory to the teacher's, we introduce a novel imitation distillation approach, which matches the policy's velocity to the teacher's along the policy's trajectory using a standard $\ell_2$ flow matching loss. By simply mimicking the teacher's behavior, $\pi$-Flow enables stable and scalable training and avoids the quality-diversity trade-off. On ImageNet 256$^2$, it attains a 1-NFE FID of 2.85, outperforming MeanFlow of the same DiT architecture. On FLUX.1-12B and Qwen-Image-20B at 4 NFEs, $\pi$-Flow achieves substantially better diversity than state-of-the-art few-step methods, while maintaining teacher-level quality.
- Abstract(参考訳): 数ステップの拡散またはフローベースの生成モデルは通常、速度予測の教師を生徒に蒸留し、その生徒はショートカットを認知データに向けて予測する。
このフォーマットのミスマッチは、しばしば品質と多様性のトレードオフに悩まされる複雑な蒸留手順につながった。
これを解決するために、ポリシーベースのフローモデル($\pi$-Flow)を提案する。
$\pi$-Flowは、学生フローモデルの出力層を変更して、1ステップでネットワークフリーポリシーを予測する。
このポリシーは、将来のサブステップにおける動的フロー速度を無視可能なオーバーヘッドで生成し、追加のネットワーク評価なしにこれらのサブステップ上で高速かつ正確なODE統合を可能にする。
政策のODE軌跡と教師のODE軌跡とを一致させるため, 標準の$\ell_2$フローマッチング損失を用いて, 政策の速度と教師の軌道とを一致させる新しい模擬蒸留手法を導入する。
単に教師の行動を模倣することで、$\pi$-Flowは安定的でスケーラブルなトレーニングを可能にし、品質と多様性のトレードオフを回避することができる。
ImageNet 256$^2$では、2.85の1-NFE FIDを獲得し、同じDiTアーキテクチャのMeanFlowを上回っている。
4 NFEにおけるFLUX.1-12BとQwen-Image-20Bでは、$\pi$-Flowは、教師レベルの品質を維持しながら、最先端のいくつかのステップメソッドよりもかなり優れた多様性を実現している。
関連論文リスト
- Value Flows [90.1510269525399]
本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
論文 参考訳(メタデータ) (2025-10-09T00:57:40Z) - MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Temporal Difference Flows [82.24174052059352]
Geometric Horizon Models (GHMs) は、将来の状態を直接予測することで、魅力的な代替手段を提供する。
既存の手法は、列車時のブートストラップ予測や、長い地平線で高品質な予測を生成するのに苦慮している。
本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:30:07Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation [33.70116170511312]
安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
論文 参考訳(メタデータ) (2023-09-12T16:42:09Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。