論文の概要: Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation
- arxiv url: http://arxiv.org/abs/2511.22690v1
- Date: Thu, 27 Nov 2025 18:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.683003
- Title: Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation
- Title(参考訳): Ar2Can:マルチヒューマン・ジェネレーションのためのCanvasを活用したアーキテクトとアーティスト
- Authors: Shubhankar Borse, Phuc Pham, Farzad Farhadzadeh, Seokeon Choi, Phong Ha Nguyen, Anh Tuan Tran, Sungrack Yun, Munawar Hayat, Fatih Porikli,
- Abstract要約: Ar2Canは、マルチヒューマンジェネレーションのためのアイデンティティレンダリングから空間計画を切り離す新しいフレームワークである。
アーキテクトモジュールは構造化されたレイアウトを予測し、各人がどこに現れるかを指定する。
アーティストモジュールは、空間的に接地された顔マッチング報酬によってガイドされたイメージを合成する。
- 参考スコア(独自算出の注目度): 66.43387826787243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in text-to-image generation, existing models consistently fail to produce reliable multi-human scenes, often duplicating faces, merging identities, or miscounting individuals. We present Ar2Can, a novel two-stage framework that disentangles spatial planning from identity rendering for multi-human generation. The Architect module predicts structured layouts, specifying where each person should appear. The Artist module then synthesizes photorealistic images, guided by a spatially-grounded face matching reward that combines Hungarian spatial alignment with ArcFace identity similarity. This approach ensures faces are rendered at correct locations and faithfully preserve reference identities. We develop two Architect variants, seamlessly integrated with our diffusion-based Artist model and optimized via Group Relative Policy Optimization (GRPO) using compositional rewards for count accuracy, image quality, and identity matching. Evaluated on the MultiHuman-Testbench, Ar2Can achieves substantial improvements in both count accuracy and identity preservation, while maintaining high perceptual quality. Notably, our method achieves these results using primarily synthetic data, without requiring real multi-human images.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・ジェネレーションの進歩にもかかわらず、既存のモデルは、常に信頼できるマルチヒューマンシーン、しばしば顔の複製、アイデンティティの融合、または個人を間違えることに失敗している。
マルチヒューマン・ジェネレーションのためのアイデンティティ・レンダリングから空間計画を切り離す新しい2段階のフレームワークであるAr2Canを提案する。
Architectモジュールは構造化されたレイアウトを予測し、各人がどこに現れるかを指定する。
そしてArtistモジュールは、ハンガリーの空間アライメントとArcFaceのアイデンティティの類似性を組み合わせた、空間的に接地された顔マッチング報酬によって導かれる、フォトリアリスティックな画像を合成する。
このアプローチは、顔が正しい位置にレンダリングされることを保証し、参照IDを忠実に保存する。
拡散型Artistモデルとシームレスに統合され,グループ相対ポリシー最適化(GRPO)によって最適化された2つのアーキテクチャ変異体を開発し,精度,画像品質,同一性マッチングのための構成的報酬について検討した。
MultiHuman-Testbenchで評価されたAr2Canは、高い知覚品質を維持しながら、カウント精度とアイデンティティ保存の両方で大幅に改善されている。
特に,本手法は,実際のマルチヒューマン画像を必要とすることなく,主に合成データを用いてこれらの結果を実現する。
関連論文リスト
- IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。