論文の概要: Value Gradient Guidance for Flow Matching Alignment
- arxiv url: http://arxiv.org/abs/2512.05116v1
- Date: Thu, 04 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.343969
- Title: Value Gradient Guidance for Flow Matching Alignment
- Title(参考訳): フローマッチングアライメントのための値勾配誘導
- Authors: Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich, Weiyang Liu, Dinghuai Zhang,
- Abstract要約: VGG-Flowは、事前学習したフローマッチングモデルを微調整するための勾配マッチングに基づく手法である。
本手法は,限られた計算予算下でのフローマッチングモデルを微調整できることを示す。
- 参考スコア(独自算出の注目度): 39.11285236057161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While methods exist for aligning flow matching models--a popular and effective class of generative models--with human preferences, existing approaches fail to achieve both adaptation efficiency and probabilistically sound prior preservation. In this work, we leverage the theory of optimal control and propose VGG-Flow, a gradient-matching-based method for finetuning pretrained flow matching models. The key idea behind this algorithm is that the optimal difference between the finetuned velocity field and the pretrained one should be matched with the gradient field of a value function. This method not only incorporates first-order information from the reward model but also benefits from heuristic initialization of the value function to enable fast adaptation. Empirically, we show on a popular text-to-image flow matching model, Stable Diffusion 3, that our method can finetune flow matching models under limited computational budgets while achieving effective and prior-preserving alignment.
- Abstract(参考訳): フローマッチングモデルにコーディネートする手法があるが、従来の手法では適応効率と確率論的に事前保存を達成できない。
本研究では,最適制御理論を活用し,事前学習した流れマッチングモデルを微調整する勾配マッチング法であるVGG-Flowを提案する。
このアルゴリズムの鍵となる考え方は、微調整された速度場と事前訓練された速度場の最適差は、値関数の勾配場と一致すべきであるということである。
この方法は報奨モデルからの1次情報を組み込むだけでなく、値関数のヒューリスティック初期化によって高速な適応を可能にする。
実験では,テキスト・画像間のフローマッチングモデルであるスタブル・ディフュージョン3(Stable Diffusion 3)について,計算予算が限られている場合のフローマッチングモデルを微調整し,有効かつ事前保存したアライメントを達成できることを示す。
関連論文リスト
- Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Bayesian Test-Time Adaptation for Vision-Language Models [51.93247610195295]
CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。
我々は、クラス埋め込みを継続的に更新して妥当性を適応させる新しいアプローチ、textbfBayesian textbfClass textbfAdaptation (BCA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:42:11Z) - Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.8959351616076745]
フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文 参考訳(メタデータ) (2024-12-22T07:48:49Z) - Flow Matching Posterior Sampling: A Training-free Conditional Generation for Flow Matching [13.634043135217254]
本稿では,Flow Matching を用いた Posterior Smpling (FMPS) を提案し,その適用範囲を拡大する。
この補正項は、サロゲートスコア関数を組み込むように再構成することができる。
FMPSは既存の最先端手法に比べて優れた世代品質が得られることを示す。
論文 参考訳(メタデータ) (2024-11-12T08:14:39Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。
1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。
本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文 参考訳(メタデータ) (2022-07-28T21:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。