論文の概要: DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation
- arxiv url: http://arxiv.org/abs/2510.01399v1
- Date: Wed, 01 Oct 2025 19:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.845843
- Title: DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation
- Title(参考訳): DisCo:マルチヒューマン生成のための多様性制約による強化
- Authors: Shubhankar Borse, Farzad Farhadzadeh, Munawar Hayat, Fatih Porikli,
- Abstract要約: DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
- 参考スコア(独自算出の注目度): 60.741022906593685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-image models excel at realism but collapse on multi-human prompts - duplicating faces, merging identities, and miscounting individuals. We introduce DisCo (Reinforcement with Diversity Constraints), the first RL-based framework to directly optimize identity diversity in multi-human generation. DisCo fine-tunes flow-matching models via Group-Relative Policy Optimization (GRPO) with a compositional reward that (i) penalizes intra-image facial similarity, (ii) discourages cross-sample identity repetition, (iii) enforces accurate person counts, and (iv) preserves visual fidelity through human preference scores. A single-stage curriculum stabilizes training as complexity scales, requiring no extra annotations. On the DiverseHumans Testset, DisCo achieves 98.6 Unique Face Accuracy and near-perfect Global Identity Spread - surpassing both open-source and proprietary methods (e.g., Gemini, GPT-Image) while maintaining competitive perceptual quality. Our results establish DisCo as a scalable, annotation-free solution that resolves the long-standing identity crisis in generative models and sets a new benchmark for compositional multi-human generation.
- Abstract(参考訳): 最先端のテキスト・トゥ・イメージモデルは現実主義に優れるが、顔の複製、アイデンティティのマージ、個人の誤算など、複数の人間のプロンプトで崩壊する。
マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークであるDisCo(Reinforcement with Diversity Constraints)を紹介する。
グループ相対政策最適化(GRPO)によるDisCo微粒フローマッチングモデルと合成報酬
(i)顔内類似性を罰する。
(ii)クロスサンプルIDの反復を阻止する。
三 正確な人数を強制し、
(4)人間の嗜好スコアを通して視力を維持する。
単段階のカリキュラムは、複雑さがスケールするにつれてトレーニングを安定化し、追加のアノテーションを必要としない。
DiverseHumans Testsetにおいて、DisCoは98.6のユニークな顔精度とほぼ完璧なグローバルアイデンティティスプレッドを達成した。
本研究は, 生成モデルにおける長期的アイデンティティ危機を解消するスケーラブルでアノテーションのないソリューションとしてDisCoを確立し, 合成多人数生成のための新しいベンチマークを設定した。
関連論文リスト
- From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization [9.614305363044737]
人物再識別(ReID)は、正確な識別表現の特徴を抽出することを目的としている。
個人ノイズを低減するための訓練自由特徴集中型ReIDフレームワーク(Pose2ID)を提案する。
提案手法は, 標準, クロスモダリティ, 隠蔽されたReIDタスクにまたがって, 最先端の新たな結果を設定する。
論文 参考訳(メタデータ) (2025-03-02T15:31:48Z) - Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge [33.35678923549471]
textbfFreeCureはパーソナライゼーションモデルの迅速な一貫性を改善するフレームワークである。
本稿では, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、迅速な一貫性を顕著に向上させた。
論文 参考訳(メタデータ) (2024-11-22T15:21:38Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。