論文の概要: PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
- arxiv url: http://arxiv.org/abs/2512.04784v1
- Date: Tue, 02 Dec 2025 13:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.181683
- Title: PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
- Title(参考訳): PaCo-RL:Pairwise Reward Modelingを用いた一貫性画像生成のための強化学習
- Authors: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian,
- Abstract要約: PaCo-RLは、特殊一貫性報酬モデルと効率的なRLアルゴリズムを組み合わせた包括的なフレームワークである。
本研究では,PaCo-Rewardが視覚的整合性に対する人間の認識との整合性を大幅に改善し,PaCo-GRPOが最先端の整合性を実現することを示す。
これらの結果は、一貫した画像生成のための実用的でスケーラブルなソリューションとしてPaCo-RLを約束していることを強調している。
- 参考スコア(独自算出の注目度): 35.2454702825439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.
- Abstract(参考訳): 一貫性のある画像生成には、複数の画像にまたがるアイデンティティ、スタイル、論理的一貫性を忠実に保存する必要がある。
教師付きトレーニングアプローチは、視覚的一貫性をキャプチャする大規模なデータセットの欠如と、人間の知覚的嗜好をモデル化する複雑さのために、このタスクに苦労する。
本稿では、強化学習(RL)が、モデルが複雑で主観的な視覚的基準をデータフリーで学習できるようにすることによって、有望な代替手段となることを論じる。
これを実現するために,特殊一貫性報酬モデルと効率的なRLアルゴリズムを組み合わせた包括的フレームワークPaCo-RLを導入する。
最初のコンポーネントであるPaCo-Rewardは、自動サブフィギュアペアリングによって構築された大規模データセットに基づいてトレーニングされたペアワイズ一貫性評価器である。
タスク認識命令とCoT理由によって強化された自己回帰的スコアリング機構を通じて一貫性を評価する。
第2のコンポーネントであるPaCo-GRPOは、RLコストを大幅に削減するために、新しい分解能分離最適化戦略を活用している。
2つの代表的なサブタスクにわたる大規模な実験により、PaCo-Rewardは視覚的一貫性の人間の知覚との整合性を著しく改善し、PaCo-GRPOはトレーニング効率と安定性を改善して最先端の整合性性能を達成する。
これらの結果から,一貫した画像生成のための実用的でスケーラブルなソリューションとしてPaCo-RLが期待されている。
プロジェクトページはhttps://x-gengroup.github.io/HomePage_PaCo-RL/で公開されている。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。