論文の概要: MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans
- arxiv url: http://arxiv.org/abs/2506.20879v2
- Date: Tue, 05 Aug 2025 19:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.007125
- Title: MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans
- Title(参考訳): MultiHuman-Testbench: 複数の人のためのベンチマーク画像生成
- Authors: Shubhankar Borse, Seokeon Choi, Sunghyun Park, Jeongho Kim, Shreya Kadambi, Risheek Garrepalli, Sungrack Yun, Munawar Hayat, Fatih Porikli,
- Abstract要約: マルチヒューマンテストベンチ(MultiHuman-Testbench)は、マルチヒューマン生成のための生成モデルを厳格に評価するための新しいベンチマークである。
ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。
顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
- 参考スコア(独自算出の注目度): 60.6183017400517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generation of images containing multiple humans, performing complex actions, while preserving their facial identities, is a significant challenge. A major factor contributing to this is the lack of a dedicated benchmark. To address this, we introduce MultiHuman-Testbench, a novel benchmark for rigorously evaluating generative models for multi-human generation. The benchmark comprises 1800 samples, including carefully curated text prompts, describing a range of simple to complex human actions. These prompts are matched with a total of 5,550 unique human face images, sampled uniformly to ensure diversity across age, ethnic background, and gender. Alongside captions, we provide human-selected pose conditioning images which accurately match the prompt. We propose a multi-faceted evaluation suite employing four key metrics to quantify face count, ID similarity, prompt alignment, and action detection. We conduct a thorough evaluation of a diverse set of models, including zero-shot approaches and training-based methods, with and without regional priors. We also propose novel techniques to incorporate image and region isolation using human segmentation and Hungarian matching, significantly improving ID similarity. Our proposed benchmark and key findings provide valuable insights and a standardized tool for advancing research in multi-human image generation. The dataset and evaluation codes will be available at https://github.com/Qualcomm-AI-research/MultiHuman-Testbench.
- Abstract(参考訳): 複数の人間を含む画像の生成、複雑な行動の実行、顔のアイデンティティの保存は、大きな課題である。
これに寄与する主な要因は、専用のベンチマークがないことである。
そこで本研究では,マルチヒューマンテストベンチ(MultiHuman-Testbench)について紹介する。
ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。
これらのプロンプトは、年齢、民族的背景、性別の多様性を確保するために均一にサンプリングされた、合計5,550人の人間の顔画像と一致します。
キャプションの他に、人間の選択したポーズ条件付き画像がプロンプトと正確に一致している。
顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
我々は、ゼロショットアプローチやトレーニングベースの手法を含む多様なモデルの集合を、地域的先行と無関係に徹底的に評価する。
また,ヒトのセグメンテーションとハンガリーのマッチングを用いて画像と領域を分離する新しい手法を提案し,IDの類似性を著しく改善した。
提案するベンチマークと鍵となる知見は、有意義な洞察と、マルチヒューマン画像生成の研究を進めるための標準化されたツールを提供する。
データセットと評価コードはhttps://github.com/Qualcomm-AI-research/MultiHuman-Testbenchで公開されている。
関連論文リスト
- Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search [25.907668574771705]
そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。
このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。
提案したベンチマーク実験により, 合成学習データにより詳細な動作の検索が容易となり, 提案手法は84.93%のリコール@1精度で到達した。
論文 参考訳(メタデータ) (2024-11-26T09:50:15Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T14:58:10Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - End-to-End Context-Aided Unicity Matching for Person Re-identification [100.02321122258638]
本稿では,人間同士の一致関係を学習・精査するための,エンドツーエンドの対人一意整合アーキテクチャを提案する。
サンプルのグローバルコンテキスト関係を用いて,ソフトマッチング結果を洗練し,両部グラフマッチングにより一致ユニシティに到達する。
実世界における人物再識別の応用を十分に考慮し, ワンショットとマルチショットの双方で一様マッチングを実現する。
論文 参考訳(メタデータ) (2022-10-20T07:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。