論文の概要: MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans
- arxiv url: http://arxiv.org/abs/2506.20879v1
- Date: Wed, 25 Jun 2025 23:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.912654
- Title: MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans
- Title(参考訳): MultiHuman-Testbench: 複数の人のためのベンチマーク画像生成
- Authors: Shubhankar Borse, Seokeon Choi, Sunghyun Park, Jeongho Kim, Shreya Kadambi, Risheek Garrepalli, Sungrack Yun, Munawar Hayat, Fatih Porikli,
- Abstract要約: マルチヒューマンテストベンチ(MultiHuman-Testbench)は、マルチヒューマン生成のための生成モデルを厳格に評価するための新しいベンチマークである。
ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。
顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
- 参考スコア(独自算出の注目度): 60.6183017400517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generation of images containing multiple humans, performing complex actions, while preserving their facial identities, is a significant challenge. A major factor contributing to this is the lack of a a dedicated benchmark. To address this, we introduce MultiHuman-Testbench, a novel benchmark for rigorously evaluating generative models for multi-human generation. The benchmark comprises 1800 samples, including carefully curated text prompts, describing a range of simple to complex human actions. These prompts are matched with a total of 5,550 unique human face images, sampled uniformly to ensure diversity across age, ethnic background, and gender. Alongside captions, we provide human-selected pose conditioning images which accurately match the prompt. We propose a multi-faceted evaluation suite employing four key metrics to quantify face count, ID similarity, prompt alignment, and action detection. We conduct a thorough evaluation of a diverse set of models, including zero-shot approaches and training-based methods, with and without regional priors. We also propose novel techniques to incorporate image and region isolation using human segmentation and Hungarian matching, significantly improving ID similarity. Our proposed benchmark and key findings provide valuable insights and a standardized tool for advancing research in multi-human image generation.
- Abstract(参考訳): 複数の人間を含む画像の生成、複雑な行動の実行、顔のアイデンティティの保存は、大きな課題である。
これに寄与する主な要因は、専用のベンチマークがないことである。
そこで本研究では,マルチヒューマンテストベンチ(MultiHuman-Testbench)について紹介する。
ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。
これらのプロンプトは、年齢、民族的背景、性別の多様性を確保するために均一にサンプリングされた、合計5,550人の人間の顔画像と一致します。
キャプションの他に、人間の選択したポーズ条件付き画像がプロンプトと正確に一致している。
顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
我々は、ゼロショットアプローチやトレーニングベースの手法を含む多様なモデルの集合を、地域的先行と無関係に徹底的に評価する。
また,ヒトのセグメンテーションとハンガリーのマッチングを用いて画像と領域を分離する新しい手法を提案し,IDの類似性を著しく改善した。
提案するベンチマークと鍵となる知見は、有意義な洞察と、マルチヒューマン画像生成の研究を進めるための標準化されたツールを提供する。
関連論文リスト
- Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search [25.907668574771705]
そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。
このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。
提案したベンチマーク実験により, 合成学習データにより詳細な動作の検索が容易となり, 提案手法は84.93%のリコール@1精度で到達した。
論文 参考訳(メタデータ) (2024-11-26T09:50:15Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - End-to-End Context-Aided Unicity Matching for Person Re-identification [100.02321122258638]
本稿では,人間同士の一致関係を学習・精査するための,エンドツーエンドの対人一意整合アーキテクチャを提案する。
サンプルのグローバルコンテキスト関係を用いて,ソフトマッチング結果を洗練し,両部グラフマッチングにより一致ユニシティに到達する。
実世界における人物再識別の応用を十分に考慮し, ワンショットとマルチショットの双方で一様マッチングを実現する。
論文 参考訳(メタデータ) (2022-10-20T07:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。