論文の概要: From Navigation to Refinement: Revealing the Two-Stage Nature of Flow-based Diffusion Models through Oracle Velocity
- arxiv url: http://arxiv.org/abs/2512.02826v1
- Date: Tue, 02 Dec 2025 14:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.926883
- Title: From Navigation to Refinement: Revealing the Two-Stage Nature of Flow-based Diffusion Models through Oracle Velocity
- Title(参考訳): ナビゲーションからリファインメントへ:Oracleベロシティによるフローベース拡散モデルの2段階の性質を明らかにする
- Authors: Haoming Liu, Jinnuo Liu, Yanhao Li, Liuyang Bai, Yunkai Ji, Yuanhe Guo, Shenji Wan, Hongyi Wen,
- Abstract要約: フローベースの拡散モデルは、画像やビデオ間で生成モデルをトレーニングするための主要なパラダイムとして現れています。
本研究は,拡散モデル学習力学の理解を深め,今後のアーキテクチャとアルゴリズムの改善を導くための原則を提供する。
- 参考スコア(独自算出の注目度): 4.185842348007261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Flow-based diffusion models have emerged as a leading paradigm for training generative models across images and videos. However, their memorization-generalization behavior remains poorly understood. In this work, we revisit the flow matching (FM) objective and study its marginal velocity field, which admits a closed-form expression, allowing exact computation of the oracle FM target. Analyzing this oracle velocity field reveals that flow-based diffusion models inherently formulate a two-stage training target: an early stage guided by a mixture of data modes, and a later stage dominated by the nearest data sample. The two-stage objective leads to distinct learning behaviors: the early navigation stage generalizes across data modes to form global layouts, whereas the later refinement stage increasingly memorizes fine-grained details. Leveraging these insights, we explain the effectiveness of practical techniques such as timestep-shifted schedules, classifier-free guidance intervals, and latent space design choices. Our study deepens the understanding of diffusion model training dynamics and offers principles for guiding future architectural and algorithmic improvements.
- Abstract(参考訳): フローベースの拡散モデルは、画像やビデオ間で生成モデルをトレーニングするための主要なパラダイムとして現れています。
しかし、その記憶・一般化行動はいまだに理解されていない。
本研究では,フローマッチング(FM)の目的を再検討し,その限界速度場について検討する。
このオラクル速度場を解析したところ、フローベース拡散モデルが本質的に2段階のトレーニングターゲットを定式化していることが判明した。
初期のナビゲーション段階はデータモードをまたいでグローバルなレイアウトを形成するように一般化し、後期の洗練段階はよりきめ細かい詳細を記憶するようになっている。
これらの知見を生かして、タイムステップシフトスケジュール、分類器フリーガイダンス間隔、遅延空間設計選択などの実践的手法の有効性を解説する。
本研究は,拡散モデル学習力学の理解を深め,今後のアーキテクチャとアルゴリズムの改善を導くための原則を提供する。
関連論文リスト
- The Principles of Diffusion Models [81.12042238390075]
拡散モデリングは、データを徐々にノイズに分解するフォワードプロセスを定義することから始まる。
目標は、ノイズをデータに変換しながら、同じ中間体を回復するリバースプロセスを学ぶことだ。
エネルギーベースモデリングに根ざしたスコアベースビューは、進化するデータ分布の勾配を学習する。
フローベースのビューは、フローの正規化に関連するもので、サンプルをノイズからデータに移すスムーズなパスに従って生成する。
論文 参考訳(メタデータ) (2025-10-24T02:29:02Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。
FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。
本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - Learning Diffusion Priors from Observations by Expectation Maximization [10.704978219090039]
不完全および雑音のみから拡散モデルをトレーニングするための新しい手法であるDEMを提案する。
以前の研究とは異なり、DEMは適切な拡散モデルをもたらし、下流のタスクに不可欠である。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Let us Build Bridges: Understanding and Extending Diffusion Generative
Models [19.517597928769042]
拡散に基づく生成モデルは、最近、有望な結果を得たが、多くのオープンな疑問を提起している。
この研究は、理論的な理解を深めるために、全体的なフレームワークを再検討しようと試みている。
1)拡散生成モデルを学習するための最初の理論的誤り解析,2)異なる離散および制約された領域からのデータを学ぶための単純で統一的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-31T08:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。