論文の概要: BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.04086v2
- Date: Fri, 06 Dec 2024 09:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:37.656919
- Title: BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation
- Title(参考訳): Body Metric:テキスト・画像生成における人間の身体の現実性の評価
- Authors: Nefeli Andreou, Varsha Vivek, Ying Wang, Alex Vorobiov, Tiffany Deng, Raja Bala, Larry Davis, Betty Mohler Tesch,
- Abstract要約: BodyMetricは、画像の身体リアリズムを予測する学習可能なメトリックである。
BodyMetricは、これまで大規模に利用できなかったアプリケーションを通じてデモします。
- 参考スコア(独自算出の注目度): 9.85749440360125
- License:
- Abstract: Accurately generating images of human bodies from text remains a challenging problem for state of the art text-to-image models. Commonly observed body-related artifacts include extra or missing limbs, unrealistic poses, blurred body parts, etc. Currently, evaluation of such artifacts relies heavily on time-consuming human judgments, limiting the ability to benchmark models at scale. We address this by proposing BodyMetric, a learnable metric that predicts body realism in images. BodyMetric is trained on realism labels and multi-modal signals including 3D body representations inferred from the input image, and textual descriptions. In order to facilitate this approach, we design an annotation pipeline to collect expert ratings on human body realism leading to a new dataset for this task, namely, BodyRealism. Ablation studies support our architectural choices for BodyMetric and the importance of leveraging a 3D human body prior in capturing body-related artifacts in 2D images. In comparison to concurrent metrics which evaluate general user preference in images, BodyMetric specifically reflects body-related artifacts. We demonstrate the utility of BodyMetric through applications that were previously infeasible at scale. In particular, we use BodyMetric to benchmark the generation ability of text-to-image models to produce realistic human bodies. We also demonstrate the effectiveness of BodyMetric in ranking generated images based on the predicted realism scores.
- Abstract(参考訳): テキストから人間の身体の正確な画像を生成することは、最先端のテキスト画像モデルでは難しい問題である。
一般的に観察される身体関連アーティファクトには、余分または欠落した手足、非現実的なポーズ、ぼやけた身体部分などが含まれる。
現在、そのようなアーティファクトの評価は人間の判断に大きく依存しており、大規模にモデルをベンチマークする能力を制限している。
画像における身体リアリズムを予測する学習可能なメトリックであるBodyMetricを提案することで、この問題に対処する。
BodyMetricは、入力画像から推測される3Dボディ表現やテキスト記述を含むリアリズムラベルとマルチモーダル信号に基づいて訓練されている。
このアプローチを容易にするために、人体リアリズムに関する専門家評価を収集するアノテーションパイプラインを設計し、このタスクのための新しいデータセット、すなわちBodyRealismを作成します。
アブレーション研究は、BodyMetricのアーキテクチャ選択と、2D画像で身体関連アーティファクトをキャプチャする前に3Dの人体を活用することの重要性を支持する。
画像の一般ユーザ嗜好を評価する並行メトリクスと比較して、BodyMetricは特に身体関連アーティファクトを反映している。
従来は大規模に利用できなかったアプリケーションを通じて,BodyMetricの実用性を実証した。
特に、本研究ではBodyMetricを用いて、テキスト・ツー・イメージモデルの生成能力をベンチマークし、リアルな人体を生成する。
また、予測リアリズムスコアに基づいて、生成した画像のランク付けにおけるBodyMetricの有効性を示す。
関連論文リスト
- DiffBody: Diffusion-based Pose and Shape Editing of Human Images [1.7188280334580193]
本稿では,アイデンティティを保存した大規模な編集を可能にするワンショットアプローチを提案する。
大きな編集を可能にするため、3Dボディモデルに適合し、入力画像を3Dモデルに投影し、身体のポーズと形状を変更する。
我々は、自己教師付き学習によるテキスト埋め込みを微調整することで、現実主義をさらに強化する。
論文 参考訳(メタデータ) (2024-01-05T13:36:19Z) - Cloth2Body: Generating 3D Human Body Mesh from 2D Clothing [54.29207348918216]
Cloth2Bodyは、入力の部分的な観察と出力の多様性によって引き起こされる新しい課題に対処する必要がある。
本稿では,2次元衣料品画像のポーズと形状によってパラメータ化された3Dボディメッシュを高精度に推定できるエンドツーエンドフレームワークを提案する。
実験結果から示されるように,提案手法は最先端の性能を実現し,自然および多様な3Dボディメッシュを2次元画像から効果的に回収することができる。
論文 参考訳(メタデータ) (2023-09-28T06:18:38Z) - Procedural Humans for Computer Vision [1.9550079119934403]
顔と身体のパラメトリックなモデルを構築し,このモデルに基づいて人間の現実的な画像を生成する。
本研究は,Wood et al. のパイプライン上に構築し,人体全体の合成画像を生成することにより,全体を含むように拡張可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T15:44:48Z) - Structure-Aware Flow Generation for Human Body Reshaping [15.365236395118982]
我々は,任意のポーズや服装で前例のない制御可能な性能を実現するために,エンドツーエンドのフロー生成アーキテクチャを開発した。
包括的評価のために, BR-5Kという, 初めての大規模ボディーリフォーミングデータセットを構築した。
提案手法は, 視覚性能, 制御性, 効率の面で, 既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-03-09T12:22:38Z) - Automatic Estimation of Anthropometric Human Body Measurements [0.0]
本稿では,深層学習とニューラルネットワークの分野における研究を定式化し,様々な視覚的入力データから身体計測の課題に取り組む。
また, 各種人体形状の合成データセットを作成することにより, トレーニングや評価に要する地上の真理体計測に注釈を付ける実際の人体データの欠如にも対処する。
論文 参考訳(メタデータ) (2021-12-22T16:13:59Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Detailed Avatar Recovery from Single Image [50.82102098057822]
本稿では,単一画像からエンフデテールアバターを回収するための新しい枠組みを提案する。
階層的メッシュ変形フレームワークでは、ディープニューラルネットワークを使用して3次元形状を洗練しています。
本手法は,皮膚モデルを超えて,完全なテクスチャで詳細な人体形状を復元することができる。
論文 参考訳(メタデータ) (2021-08-06T03:51:26Z) - 3D Human Body Reshaping with Anthropometric Modeling [59.51820187982793]
人間測定パラメータから正確で現実的な3D人体を再構築することは、個人識別、オンラインショッピング、仮想現実のための基本的な課題です。
このような3d形状を作る既存のアプローチは、レンジカメラやハイエンドスキャナーによる複雑な測定に苦しむことが多い。
本稿では,各ファセットに対する自動人為的パラメータモデリングを可能にする,特徴選択に基づく局所マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T04:09:39Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。