論文の概要: Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation
- arxiv url: http://arxiv.org/abs/2511.18919v1
- Date: Mon, 24 Nov 2025 09:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.127305
- Title: Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation
- Title(参考訳): 信頼すべきものを学ぶ: ベイジアン事前指導によるビジュアルジェネレーションの最適化
- Authors: Ruiying Liu, Yuanzhi Liang, Haibin Huang, Tianshu Yu, Chi Zhang,
- Abstract要約: GRPOの新たな拡張であるBPGOを導入し、セマンティックな先行アンカーを通して報酬の不確実性を明示的にモデル化する。
BPGOは一貫して強いセマンティックアライメントを提供し、知覚の忠実度を高め、標準GRPOや最近の変種よりも早く収束する。
- 参考スコア(独自算出の注目度): 18.178060190776858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has emerged as an effective and lightweight framework for post-training visual generative models. However, its performance is fundamentally limited by the ambiguity of textual visual correspondence: a single prompt may validly describe diverse visual outputs, and a single image or video may support multiple equally correct interpretations. This many to many relationship leads reward models to generate uncertain and weakly discriminative signals, causing GRPO to underutilize reliable feedback and overfit noisy ones. We introduce Bayesian Prior-Guided Optimization (BPGO), a novel extension of GRPO that explicitly models reward uncertainty through a semantic prior anchor. BPGO adaptively modulates optimization trust at two levels: inter-group Bayesian trust allocation emphasizes updates from groups consistent with the prior while down-weighting ambiguous ones, and intra-group prior-anchored renormalization sharpens sample distinctions by expanding confident deviations and compressing uncertain scores. Across both image and video generation tasks, BPGO delivers consistently stronger semantic alignment, enhanced perceptual fidelity, and faster convergence than standard GRPO and recent variants.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、視覚生成モデルの訓練後において、効果的で軽量なフレームワークとして登場した。
単一のプロンプトは多様な視覚的出力を有効に記述でき、単一の画像やビデオは複数の同じ正しい解釈をサポートする。
この多くの関係により、報酬モデルが不確実かつ弱い識別的信号を生成するようになり、GRPOは信頼性の高いフィードバックを過小評価し、ノイズの多い信号に過度に適合する。
本稿では,意味的先行アンカーを通じて報酬の不確実性を明示的にモデル化するGRPOの新たな拡張であるBayesian Prior-Guided Optimization (BPGO)を紹介する。
BPGOは最適化信頼を2つのレベルに適応的に変調する: グループ間ベイズ的信頼割り当ては、前と一致したグループからの更新を強調し、一方、不明瞭なグループを下降させ、グループ内再正規化は、確実な偏差を拡大し、不確実なスコアを圧縮することによって、サンプルの区別を鋭くする。
画像生成タスクとビデオ生成タスクの両方で、BPGOは一貫して強力なセマンティックアライメント、知覚の忠実度の向上、標準GRPOや最近の変種よりも高速な収束を提供する。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文 参考訳(メタデータ) (2025-10-04T13:51:32Z) - Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning [34.75717081153747]
生成された画像を評価する現在の方法は、ハッキングに報奨を与える可能性がある。
Pref-GRPOを提案する。これは、最適化目標をスコアから好みのフィッティングにシフトさせ、より安定したトレーニングを確実にする。
既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
We introduced UniGenBench, a unified T2I benchmark including 600 prompts across 5 mainmes and 20 subthemes。
論文 参考訳(メタデータ) (2025-08-28T13:11:24Z) - Feedback Guidance of Diffusion Models [14.162420300295365]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。