論文の概要: Unified Personalized Reward Model for Vision Generation
- arxiv url: http://arxiv.org/abs/2602.02380v1
- Date: Mon, 02 Feb 2026 17:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.330475
- Title: Unified Personalized Reward Model for Vision Generation
- Title(参考訳): ビジョン生成のための統一パーソナライズされたリワードモデル
- Authors: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang,
- Abstract要約: 視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
- 参考スコア(独自算出の注目度): 27.496220369122494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
- Abstract(参考訳): マルチモーダル報酬モデル(RM)の最近の進歩は、視覚生成の発達を著しく促進している。
既存のフレームワークは通常、ブラッドリー・テリースタイルの嗜好モデルを採用するか、生成的なVLMを審査員として活用し、その後、強化学習を通じて視覚生成モデルを最適化する。
しかし、現在のRMは固有の制約に悩まされており、モノリシックな選好分布を前提とするか、固定された評価ルーリックに依存している、一大のパラダイムに従うことが多い。
結果として、それらは内容特異的な視覚的手がかりに敏感であり、主観的および文脈に依存した人間の嗜好と体系的な相違をもたらす。
この目的のために、人間の評価に触発されたUnifiedReward-Flexを提案する。これは、視覚生成のための統一されたパーソナライズされた報酬モデルで、報酬モデリングと柔軟で文脈適応的な推論を結合する。
具体的には、プロンプトと生成された視覚内容が与えられた後、まず視覚的エビデンスに基づいて意味的意図と根拠を解釈し、次に予め定義された高次次元と自己生成された高次次元の両方できめ細かい基準をインスタンス化することによって階層的評価を動的に構築する。
トレーニングパイプラインは,(1)先進的なクローズドソースVLMからブートストラップSFTへの構造的,高品質な推論トレースを初めて蒸留し,フレキシブルでコンテキスト適応的な推論行動を備えたモデルを構築し,(2)慎重に調整された選好ペア上で直接選好最適化(DPO)を行い,その信頼性と差別的アライメントを強化する。
有効性を検証するため,画像およびビデオ合成のためのGRPOフレームワークにUnifiedReward-Flexを統合し,その優位性を示した。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems [85.16327248973387]
継続的インシシット優先(CIP)で訓練された報酬モデルであるRoleRMを開発する。
RoleRMは、オープンソースの強力な報酬モデルとクローズドな報酬モデルを平均で24%以上超えています。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
論文 参考訳(メタデータ) (2025-12-11T12:04:46Z) - Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models [16.152962349146275]
本稿では、コンテンツ生成をアライメントから切り離してパーソナライズパラダイムを再定義するフレームワークであるリフレクティブパーソナライズ最適化(RPO)を提案する。
RPOは2つの異なる段階で動作する: まず、ベースモデルが高品質で汎用的な応答を生成し、その後、外部反射モジュールがこの出力を明示的に書き直してユーザの好みに合わせる。
LaMPベンチマークの総合的な実験により、RPOはパーソナライゼーションからコンテンツ生成を分離することで、最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-11-07T14:48:49Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [20.935028961216325]
ConceptMix++は、ビジュアルジェネレーション機能からプロンプトのフレーズをアンタングルするフレームワークである。
最適化されたプロンプトは構成生成性能を大幅に向上することを示す。
これらの結果から,厳密なベンチマーク手法が真のモデル能力を著しく過小評価している可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-04T03:27:04Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。