論文の概要: From Competition to Synergy: Unlocking Reinforcement Learning for Subject-Driven Image Generation
- arxiv url: http://arxiv.org/abs/2510.18263v1
- Date: Tue, 21 Oct 2025 03:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.844861
- Title: From Competition to Synergy: Unlocking Reinforcement Learning for Subject-Driven Image Generation
- Title(参考訳): 競争からシナジーへ:主観駆動画像生成のための強化学習を解き放つ
- Authors: Ziwei Huang, Ying Shu, Hao Fang, Quanyu Long, Wenya Wang, Qiushi Guo, Tiezheng Ge, Leilei Gan,
- Abstract要約: 被写体駆動画像生成モデルは、アイデンティティ保存(忠実さ)とアクシデンス(親和性)の基本的なトレードオフに直面している
本稿では,Synergy-Aware Reward ShapingとTime-Aware Dynamic Weightingという2つの重要なイノベーションを特徴とする新しいフレームワークを提案する。
本モデルでは,重要な特徴を保存し,複雑なテキストのプロンプトに正確に準拠する画像を生成する。
- 参考スコア(独自算出の注目度): 37.43722287763904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven image generation models face a fundamental trade-off between identity preservation (fidelity) and prompt adherence (editability). While online reinforcement learning (RL), specifically GPRO, offers a promising solution, we find that a naive application of GRPO leads to competitive degradation, as the simple linear aggregation of rewards with static weights causes conflicting gradient signals and a misalignment with the temporal dynamics of the diffusion process. To overcome these limitations, we propose Customized-GRPO, a novel framework featuring two key innovations: (i) Synergy-Aware Reward Shaping (SARS), a non-linear mechanism that explicitly penalizes conflicted reward signals and amplifies synergistic ones, providing a sharper and more decisive gradient. (ii) Time-Aware Dynamic Weighting (TDW), which aligns the optimization pressure with the model's temporal dynamics by prioritizing prompt-following in the early, identity preservation in the later. Extensive experiments demonstrate that our method significantly outperforms naive GRPO baselines, successfully mitigating competitive degradation. Our model achieves a superior balance, generating images that both preserve key identity features and accurately adhere to complex textual prompts.
- Abstract(参考訳): 被写体駆動画像生成モデルは、アイデンティティ保存(忠実さ)とアクシデンス(親和性)の基本的なトレードオフに直面している。
オンライン強化学習(RL)、特にGPROは有望な解であるが、静的重み付き報酬の単純な線形集約は、拡散過程の時間的ダイナミクスと矛盾する勾配信号と不一致を引き起こすため、GRPOの素早い適用は競争上の劣化をもたらす。
これらの制限を克服するため、私たちはCustomized-GRPOという、2つの重要なイノベーションを特徴とする新しいフレームワークを提案する。
i) 相乗的報酬信号を明確にペナルティ化し, より鋭く決定的な勾配を与える非線形機構であるSARS(Synergy-Aware Reward Shaping)。
(II)TDW(Time-Aware Dynamic Weighting)は、初期におけるプロンプトフォローの優先順位付けにより、最適化圧力をモデルの時間的ダイナミクスと整合させる。
大規模実験により,本手法は単純GRPOベースラインを著しく上回り,競合劣化の軽減に成功していることが示された。
本モデルでは,重要な特徴を保存し,複雑なテキストのプロンプトに正確に準拠する画像を生成する。
関連論文リスト
- PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models [54.18605375476406]
安定的な客観的な改革と原則的なタイムステップの再重み付けを通じて、比例的な信用割当を強制する枠組みであるPCPO(Proportionate Credit Policy Optimization)を導入する。
PCPOは、最先端のDanceGRPOを含むすべての面で、既存の方針勾配ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-09-30T04:43:58Z) - STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation [16.40446848402754]
近年,テキスト・ツー・イメージ・ジェネレーションを改善するために強化学習が研究されている。
既存のGRPOアルゴリズムを自己回帰(AR)イメージモデルに適用することは依然として困難である。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
論文 参考訳(メタデータ) (2025-09-29T16:50:21Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Parallelly Tempered Generative Adversarial Nets: Toward Stabilized Gradients [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。