Fugu-MT 論文翻訳(概要): Momentum Guidance: Plug-and-Play Guidance for Flow Models

論文の概要: Momentum Guidance: Plug-and-Play Guidance for Flow Models

arxiv url: http://arxiv.org/abs/2602.20360v1
Date: Mon, 23 Feb 2026 21:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.531194
Title: Momentum Guidance: Plug-and-Play Guidance for Flow Models
Title（参考訳）: Momentum Guidance: フローモデルのためのPlug-and-Play Guidance
Authors: Runlong Liao, Jian Yu, Baiyu Su, Chi Zhang, Lizhang Chen, Qiang Liu,
Abstract要約: 本稿では, ODE 軌道自体を利用した新たなガイダンスである Momentum Guidance (MG) を紹介する。 MGは過去の速度の指数移動平均を用いて電流速度を外挿し、標準の1段階評価コストを保存する。 MGは、CFGを使わずに36.68%、CFGを使わず25.52%の平均的なFID改善を実現し、64回のサンプリングステップで1.597のFIDを達成する。
参考スコア（独自算出の注目度）: 11.47531308210865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Flow-based generative models have become a strong framework for high-quality generative modeling, yet pretrained models are rarely used in their vanilla conditional form: conditional samples without guidance often appear diffuse and lack fine-grained detail due to the smoothing effects of neural networks. Existing guidance techniques such as classifier-free guidance (CFG) improve fidelity but double the inference cost and typically reduce sample diversity. We introduce Momentum Guidance (MG), a new dimension of guidance that leverages the ODE trajectory itself. MG extrapolates the current velocity using an exponential moving average of past velocities and preserves the standard one-evaluation-per-step cost. It matches the effect of standard guidance without extra computation and can further improve quality when combined with CFG. Experiments demonstrate MG's effectiveness across benchmarks. Specifically, on ImageNet-256, MG achieves average improvements in FID of 36.68% without CFG and 25.52% with CFG across various sampling settings, attaining an FID of 1.597 at 64 sampling steps. Evaluations on large flow-based models like Stable Diffusion 3 and FLUX.1-dev further confirm consistent quality enhancements across standard metrics.
Abstract（参考訳）: フローベースの生成モデルは、高品質な生成モデルのための強力なフレームワークとなっているが、事前訓練されたモデルは、バニラ条件で使われることは滅多にない。分類器フリーガイダンス(CFG)のような既存のガイダンス手法では、忠実さは向上するが、推論コストは2倍になり、典型的にはサンプルの多様性が低下する。本稿では, ODE 軌道自体を利用した新たなガイダンスである Momentum Guidance (MG) を紹介する。 MGは過去の速度の指数移動平均を用いて電流速度を外挿し、標準の1段階評価コストを保存する。これは、余分な計算なしで標準ガイダンスの効果と一致し、CFGと組み合わせることで、さらに品質を向上させることができる。実験はMGの有効性をベンチマークで示す。具体的には、ImageNet-256では、CFGを使わずにFIDを36.68%、様々なサンプリング設定でCFGを25.52%改善し、64回のサンプリングステップで1.597のFIDを達成する。 Stable Diffusion 3 や FLUX.1-dev のようなフローベースの大規模モデルの評価は、標準メトリクス間の一貫性のある品質向上をさらに確認する。

関連論文リスト

Improving Classifier-Free Guidance of Flow Matching via Manifold Projection [3.6087998976768128]
最適化のレンズによるCFGの原理的解釈を提供する。 CFGサンプリングを多様体制約によるホモトピー最適化として再構成する。提案手法は, トレーニング不要かつ一貫した生成忠実度, 迅速なアライメント, ガイダンス尺度に対するロバスト性である。
論文参考訳（メタデータ） (2026-01-29T15:49:31Z)
Saddle-Free Guidance: Improved On-Manifold Sampling without Labels or Additional Training [6.807078976578283]
我々は,個々のスコアベースモデルを導くために,ログ密度の最大正曲率を推定するサドルフリーガイダンス(SFG)を開発した。実験の結果,SFGはシングルモデル ImageNet512 生成において,最先端の FID と FDDINOv2 のメトリクスを達成できることが示唆された。
論文参考訳（メタデータ） (2025-11-26T19:39:59Z)
MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。 1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文参考訳（メタデータ） (2025-11-17T06:17:08Z)
HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models [11.750450439149233]
歴史誘導サンプリング(HiGS)と呼ばれる新しい運動量に基づくサンプリング手法を提案する。 HiGSは、最新のモデル予測を各推論ステップに統合することにより、拡散サンプリングの品質と効率を向上させる。提案手法では,既存の拡散フレームワークとシームレスに統合する。
論文参考訳（メタデータ） (2025-09-26T13:01:10Z)
RAAG: Ratio Aware Adaptive Guidance [9.525432706814675]
フローベースの生成モデルは驚くべき進歩を遂げた。推論全体を通じて強力な、固定されたガイダンススケールを適用することは、現代的なアプリケーションに必要な、迅速な、数ステップのサンプリングには適していない。本稿では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型指導スケジュールを提案する。
論文参考訳（メタデータ） (2025-08-05T13:41:05Z)
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。 NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。 NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文参考訳（メタデータ） (2025-05-27T13:30:46Z)
Gaussian Mixture Flow Matching Models [63.092956669059824]
拡散モデルは正規分布をガウス平均として近似し,その平均を推定する一方,フローマッチングモデルはガウス平均をフロー速度としてパラメータ化する。離散化誤差による数段階のサンプリングでは性能が低下し、分類器フリーガイダンス(CFG)では過飽和色が生じる傾向にある。本稿では,CFGの過飽和問題を緩和し,画像生成品質を向上する新しい確率的ガイダンス手法を提案する。
論文参考訳（メタデータ） (2025-04-07T17:59:42Z)
Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文参考訳（メタデータ） (2025-02-17T18:59:50Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。 ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文参考訳（メタデータ） (2024-05-22T11:20:32Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。 CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文参考訳（メタデータ） (2023-10-01T05:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。