論文の概要: Fine-tuning Flow Matching Generative Models with Intermediate Feedback
- arxiv url: http://arxiv.org/abs/2510.18072v1
- Date: Mon, 20 Oct 2025 20:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.549961
- Title: Fine-tuning Flow Matching Generative Models with Intermediate Feedback
- Title(参考訳): 中間フィードバックを考慮した微調整フローマッチング生成モデル
- Authors: Jiajun Fan, Chaoran Cheng, Shuaike Shen, Xiangxin Zhou, Ge Liu,
- Abstract要約: フローベースの生成モデルは、テキスト・画像生成において顕著な成功を収めている。
既存のアプローチは、クレジット代入問題に苦しむ結果報酬からのみ学習する。
我々は3つの重要なイノベーションを通じてこれらの課題に対処する、堅牢なアクター批判フレームワークであるAC-Flowを紹介します。
- 参考スコア(独自算出の注目度): 23.447961856739422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-based generative models have shown remarkable success in text-to-image generation, yet fine-tuning them with intermediate feedback remains challenging, especially for continuous-time flow matching models. Most existing approaches solely learn from outcome rewards, struggling with the credit assignment problem. Alternative methods that attempt to learn a critic via direct regression on cumulative rewards often face training instabilities and model collapse in online settings. We present AC-Flow, a robust actor-critic framework that addresses these challenges through three key innovations: (1) reward shaping that provides well-normalized learning signals to enable stable intermediate value learning and gradient control, (2) a novel dual-stability mechanism that combines advantage clipping to prevent destructive policy updates with a warm-up phase that allows the critic to mature before influencing the actor, and (3) a scalable generalized critic weighting scheme that extends traditional reward-weighted methods while preserving model diversity through Wasserstein regularization. Through extensive experiments on Stable Diffusion 3, we demonstrate that AC-Flow achieves state-of-the-art performance in text-to-image alignment tasks and generalization to unseen human preference models. Our results demonstrate that even with a computationally efficient critic model, we can robustly finetune flow models without compromising generative quality, diversity, or stability.
- Abstract(参考訳): フローベースの生成モデルは、テキスト・ツー・イメージ生成において顕著な成功を収めているが、特に連続時間フローマッチングモデルでは、中間フィードバックでそれらを微調整することは依然として困難である。
既存のアプローチのほとんどは、クレジット割り当ての問題に苦しむ結果報酬からのみ学習します。
累積報酬を直接回帰して批評家を学ぼうとする別の方法は、トレーニングの不安定さとオンライン設定におけるモデル崩壊に直面していることが多い。
本稿では,これらの課題に対処する堅牢なアクター批判フレームワークであるAC-Flowについて述べる。(1)安定な中間値学習と勾配制御を実現するための,正規化された学習信号を提供する報酬形成,(2)有利なクリッピングを組み合わせて,破壊的な政策更新を防止し,アクターに影響を与える前に,批評家が成熟することのできるウォームアップフェーズと,(3)ワッサーシュタイン正則化によるモデル多様性を保ちながら,従来の報酬重み付け手法を拡張するスケーラブルな一般化された批判重み付けスキームである。
安定拡散3における広範囲な実験を通して,AC-Flowはテキスト・画像のアライメントタスクにおける最先端の性能と,見当たらない人間の嗜好モデルへの一般化を実証した。
その結果, 計算効率のよい批判モデルであっても, 生成品質, 多様性, 安定性を損なうことなく, 流れモデルを堅牢に微調整できることが示唆された。
関連論文リスト
- From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation [18.371344440413353]
本研究では,1段階から3段階の高忠実度,多種多様な試料生成を可能にする新しい蒸留フレームワークを提案する。
提案手法は, (i) 学習者自身の後方軌跡を校正することで, トレーニングと推論の相違を緩和する後方蒸留, (ii) 知識伝達を動的に適応させるシフト型再構成損失, (iii) サンプル品質を高める推論時間技術であるノイズ補正の3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2024-05-08T17:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。