論文の概要: Seeing What Matters: Visual Preference Policy Optimization for Visual Generation
- arxiv url: http://arxiv.org/abs/2511.18719v1
- Date: Mon, 24 Nov 2025 03:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.995329
- Title: Seeing What Matters: Visual Preference Policy Optimization for Visual Generation
- Title(参考訳): 何が重要かを見る:視覚生成のための視覚的嗜好ポリシー最適化
- Authors: Ziqi Ni, Yuanzhi Liang, Rui Li, Yi Zhou, Haibing Huang, Chi Zhang, Xuelong Li,
- Abstract要約: 私たちは、スカラーフィードバックを構造化されたピクセルレベルのアドバンテージに引き上げる、Visual Preference Policy Optimization (ViPO)を導入します。
ViPOは相変わらずバニラGRPOより優れており、ドメイン内でのアライメントと人為的な報酬を改善している。
この方法はアーキテクチャに依存しず、軽量で、既存のGRPOトレーニングパイプラインと完全に互換性がある。
- 参考スコア(独自算出の注目度): 46.144586232126244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a powerful tool for post-training visual generative models, with Group Relative Policy Optimization (GRPO) increasingly used to align generators with human preferences. However, existing GRPO pipelines rely on a single scalar reward per sample, treating each image or video as a holistic entity and ignoring the rich spatial and temporal structure of visual content. This coarse supervision hinders the correction of localized artifacts and the modeling of fine-grained perceptual cues. We introduce Visual Preference Policy Optimization (ViPO), a GRPO variant that lifts scalar feedback into structured, pixel-level advantages. ViPO employs a Perceptual Structuring Module that uses pretrained vision backbones to construct spatially and temporally aware advantage maps, redistributing optimization pressure toward perceptually important regions while preserving the stability of standard GRPO. Across both image and video benchmarks, ViPO consistently outperforms vanilla GRPO, improving in-domain alignment with human-preference rewards and enhancing generalization on out-of-domain evaluations. The method is architecture-agnostic, lightweight, and fully compatible with existing GRPO training pipelines, providing a more expressive and informative learning signal for visual generation.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は視覚生成モデルの訓練後において強力なツールとなり, グループ相対政策最適化 (GRPO) はジェネレータを人間の好みに合わせるためにますます利用されている。
しかし、既存のGRPOパイプラインはサンプルごとに1つのスカラー報酬に依存しており、各画像や動画を全体論的実体として扱い、視覚内容の豊かな空間的・時間的構造を無視している。
この粗い監視は、局所的なアーティファクトの修正と、きめ細かい知覚的手がかりのモデリングを妨げる。
我々は、スカラーフィードバックを構造化されたピクセルレベルのアドバンテージに引き上げるGRPO(Visual Preference Policy Optimization)について紹介する。
ViPOは、事前訓練された視覚バックボーンを使用して、空間的および時間的に認識された有利なマップを構築し、標準GRPOの安定性を維持しながら、知覚的に重要な領域に対する最適化圧力を再分配する知覚構造化モジュールを採用している。
イメージベンチマークとビデオベンチマークの両方で、ViPOは一貫してバニラGRPOよりも優れており、ドメイン内のアライメントと人間の参照報酬を改善し、ドメイン外評価の一般化を強化している。
この方法はアーキテクチャに依存しず、軽量で、既存のGRPOトレーニングパイプラインと完全に互換性があり、視覚生成のためのより表現力があり、情報的な学習信号を提供する。
関連論文リスト
- Growing with the Generator: Self-paced GRPO for Video Generation [45.5073437581357]
グループ相対政策最適化は、ビデオ生成後のモデルのための強力な強化学習パラダイムとして登場した。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに重点を移すプログレッシブ報酬機構を導入する。
論文 参考訳(メタデータ) (2025-11-24T17:56:03Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - VAGPO: Vision-augmented Asymmetric Group Preference Optimization for Graph Routing Problems [27.70647397895125]
グラフルーティング問題は、グラフ間の最適な経路を見つけることが不可欠であるWeb関連ネットワークにおいて重要な役割を果たす。
最近のデータ駆動最適化手法は大きな進歩を遂げているが、訓練効率と大規模インスタンスへの一般化の限界に直面していることが多い。
本稿では,空間構造と時間的依存関係の両方をキャプチャする,視覚拡張型非対称グループ優先最適化(VAGPO)手法を提案する。
論文 参考訳(メタデータ) (2025-08-03T14:19:12Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DanceGRPO: Unleashing GRPO on Visual Generation [42.567425922760144]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning [54.956037293979506]
本論文は、視覚バックボーンと視覚バックボーンの相互作用と、その相互依存現象であるtextittextbfbackbonetextbfoptimizer textbfcoupling textbfbias (BOCB) について述べる。
我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。
論文 参考訳(メタデータ) (2024-10-08T21:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。