論文の概要: PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards
- arxiv url: http://arxiv.org/abs/2512.01236v1
- Date: Mon, 01 Dec 2025 03:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.667635
- Title: PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards
- Title(参考訳): PSR: Pairwise Subject-Consistency Rewardsを用いた多目的パーソナライズド画像生成
- Authors: Shulei Wang, Longhui Wei, Xin He, Jianbo Ouyang, Hui Lu, Zhou Zhao, Qi Tian,
- Abstract要約: スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。
まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。
主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
- 参考スコア(独自算出の注目度): 86.1965460124838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized generation models for a single subject have demonstrated remarkable effectiveness, highlighting their significant potential. However, when extended to multiple subjects, existing models often exhibit degraded performance, particularly in maintaining subject consistency and adhering to textual prompts. We attribute these limitations to the absence of high-quality multi-subject datasets and refined post-training strategies. To address these challenges, we propose a scalable multi-subject data generation pipeline that leverages powerful single-subject generation models to construct diverse and high-quality multi-subject training data. Through this dataset, we first enable single-subject personalization models to acquire knowledge of synthesizing multi-image and multi-subject scenarios. Furthermore, to enhance both subject consistency and text controllability, we design a set of Pairwise Subject-Consistency Rewards and general-purpose rewards, which are incorporated into a refined reinforcement learning stage. To comprehensively evaluate multi-subject personalization, we introduce a new benchmark that assesses model performance using seven subsets across three dimensions. Extensive experiments demonstrate the effectiveness of our approach in advancing multi-subject personalized image generation. Github Link: https://github.com/wang-shulei/PSR
- Abstract(参考訳): 一つの被験者に対するパーソナライズドジェネレーションモデルは顕著な効果を示し、その有意義な可能性を浮き彫りにした。
しかし、複数の主題に拡張された場合、既存のモデルは、特に主題の一貫性を維持し、テキストのプロンプトに固執する際に、しばしば劣化した性能を示す。
これらの制限は、高品質なマルチオブジェクトデータセットが欠如し、訓練後戦略が洗練されているためである。
これらの課題に対処するために,強力な単一オブジェクト生成モデルを活用するスケーラブルなマルチオブジェクトデータ生成パイプラインを提案し,多種多様な高品質なマルチオブジェクト学習データを構築する。
このデータセットにより、まず単目的パーソナライズモデルを用いて、多目的シナリオと多目的シナリオの合成に関する知識を得る。
さらに, 主観的整合性とテキスト制御性を両立させるため, 改良された強化学習段階に組み込まれたペアワイズ・サブジェスト・コンシスタンシー・リワードと汎用報酬のセットを設計する。
マルチオブジェクトのパーソナライゼーションを包括的に評価するために,3次元の7つのサブセットを用いてモデル性能を評価するベンチマークを導入する。
広汎な実験は、多目的パーソナライズされた画像生成の進展における我々のアプローチの有効性を示す。
Githubリンク:https://github.com/wang-shulei/PSR
関連論文リスト
- MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning [28.841076643572933]
マルチオブジェクト画像生成は、ユーザが提供する対象を1つの画像で合成することを目的としている。
既存の手法は、単純な再構築に基づく目的への依存によって制限される。
提案するMultiCrafterは,高忠実で嗜好に整合した生成を実現するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T06:41:43Z) - MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing [14.88610127301938]
MUSARは、シングルオブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するためのフレームワークである。
シングルオブジェクト画像からディップチッチトレーニングペアを構築し、マルチオブジェクト学習を容易にするとともに、ディップチッチ構築によって導入された分布バイアスを積極的に補正する。
実験によると、MUSARは既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-05T17:50:24Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。