論文の概要: Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment
- arxiv url: http://arxiv.org/abs/2512.12387v1
- Date: Sat, 13 Dec 2025 16:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.242817
- Title: Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment
- Title(参考訳): フローマッチングモデルアライメントのための時間次元と群次元のアンコリング値
- Authors: Yawen Shao, Jie Xiao, Kai Zhu, Yu Liu, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
- 参考スコア(独自算出の注目度): 61.80228667422234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has proven highly effective in enhancing the alignment capabilities of Large Language Models (LLMs). However, current adaptations of GRPO for the flow matching-based image generation neglect a foundational conflict between its core principles and the distinct dynamics of the visual synthesis process. This mismatch leads to two key limitations: (i) Uniformly applying a sparse terminal reward across all timesteps impairs temporal credit assignment, ignoring the differing criticality of generation phases from early structure formation to late-stage tuning. (ii) Exclusive reliance on relative, intra-group rewards causes the optimization signal to fade as training converges, leading to the optimization stagnation when reward diversity is entirely depleted. To address these limitations, we propose Value-Anchored Group Policy Optimization (VGPO), a framework that redefines value estimation across both temporal and group dimensions. Specifically, VGPO transforms the sparse terminal reward into dense, process-aware value estimates, enabling precise credit assignment by modeling the expected cumulative reward at each generative stage. Furthermore, VGPO replaces standard group normalization with a novel process enhanced by absolute values to maintain a stable optimization signal even as reward diversity declines. Extensive experiments on three benchmarks demonstrate that VGPO achieves state-of-the-art image quality while simultaneously improving task-specific accuracy, effectively mitigating reward hacking. Project webpage: https://yawen-shao.github.io/VGPO/.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は,大規模言語モデル(LLM)のアライメント機能向上に極めて有効であることが証明されている。
しかし、流れマッチングに基づく画像生成に対するGRPOの現在の適応は、その基本原理と視覚合成過程の明確なダイナミクスの相違を無視している。
このミスマッチは2つの重要な制限につながります。
一 初期構造形成から後期チューニングまで生成段階の異なる臨界性を無視して、時間的信用割り当てを損なうことなく、全タイムステップにわたってスパース端末報酬を均一に適用すること。
(II)群内報酬に対する排他的依存は、訓練が収束するにつれて最適化信号が消失し、報酬の多様性が完全に損なわれるときの最適化が停滞する。
これらの制約に対処するため、時間次元とグループ次元の両方で価値推定を再定義するフレームワークであるValue-Anchored Group Policy Optimization (VGPO)を提案する。
具体的には、VGPOはスパース端末報酬をプロセス認識値の推定値に変換し、各生成段階で期待される累積報酬をモデル化することにより、正確なクレジット割り当てを可能にする。
さらに、VGPOは標準群正規化を絶対値によって強化された新しいプロセスに置き換え、報酬の多様性が低下しても安定した最適化信号を維持する。
3つのベンチマークによる大規模な実験により、VGPOはタスク固有の精度を同時に向上し、報酬ハッキングを効果的に軽減し、最先端の画像品質を達成することが示された。
プロジェクトWebページ: https://yawen-shao.github.io/VGPO/。
関連論文リスト
- Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation [18.178060190776858]
GRPOの新たな拡張であるBPGOを導入し、セマンティックな先行アンカーを通して報酬の不確実性を明示的にモデル化する。
BPGOは一貫して強いセマンティックアライメントを提供し、知覚の忠実度を高め、標準GRPOや最近の変種よりも早く収束する。
論文 参考訳(メタデータ) (2025-11-24T09:29:30Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - TempFlow-GRPO: When Timing Matters for GRPO in Flow Models [22.023027865557637]
本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
論文 参考訳(メタデータ) (2025-08-06T11:10:39Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。