論文の概要: Evaluating and Predicting Distorted Human Body Parts for Generated Images
- arxiv url: http://arxiv.org/abs/2503.00811v1
- Date: Sun, 02 Mar 2025 09:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:51.860286
- Title: Evaluating and Predicting Distorted Human Body Parts for Generated Images
- Title(参考訳): 画像生成のための歪んだ人体部品の評価と予測
- Authors: Lu Ma, Kaibo Cao, Hao Liang, Jiaxin Lin, Zhuang Li, Yuhong Liu, Jihong Zhang, Wentao Zhang, Bin Cui,
- Abstract要約: AI生成画像中の人体歪みを検出するために,視覚変換器を用いたモデルViT-HDを提案する。
我々は,一般的な4つのT2Iモデルを評価するために,500個の人間中心のプロンプトを用いたヒューマン・ディストーションベンチマークを構築した。
この研究は、AI生成された人間の解剖学的精度を評価するための体系的なアプローチを開拓し、T2Iモデルの忠実性を高めるためのツールを提供する。
- 参考スコア(独自算出の注目度): 44.49888268318722
- License:
- Abstract: Recent advancements in text-to-image (T2I) models enable high-quality image synthesis, yet generating anatomically accurate human figures remains challenging. AI-generated images frequently exhibit distortions such as proliferated limbs, missing fingers, deformed extremities, or fused body parts. Existing evaluation metrics like Inception Score (IS) and Fr\'echet Inception Distance (FID) lack the granularity to detect these distortions, while human preference-based metrics focus on abstract quality assessments rather than anatomical fidelity. To address this gap, we establish the first standards for identifying human body distortions in AI-generated images and introduce Distortion-5K, a comprehensive dataset comprising 4,700 annotated images of normal and malformed human figures across diverse styles and distortion types. Based on this dataset, we propose ViT-HD, a Vision Transformer-based model tailored for detecting human body distortions in AI-generated images, which outperforms state-of-the-art segmentation models and visual language models, achieving an F1 score of 0.899 and IoU of 0.831 on distortion localization. Additionally, we construct the Human Distortion Benchmark with 500 human-centric prompts to evaluate four popular T2I models using trained ViT-HD, revealing that nearly 50\% of generated images contain distortions. This work pioneers a systematic approach to evaluating anatomical accuracy in AI-generated humans, offering tools to advance the fidelity of T2I models and their real-world applicability. The Distortion-5K dataset, trained ViT-HD will soon be released in our GitHub repository: \href{https://github.com/TheRoadQaQ/Predicting-Distortion}{https://github.com/TheRoadQaQ/Predicting-Distortion}.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの最近の進歩は高品質な画像合成を可能にするが、解剖学的に正確な人物像を生成することは困難である。
AI生成画像は、しばしば、足の増殖、指の欠如、変形した上肢、または融合した身体部分などの歪みを示す。
既存の評価指標であるIS(Inception Score)やFr\'echet Inception Distance(FID)は、これらの歪みを検出するための粒度を欠いている。
このギャップに対処するために、AI生成画像における人体歪みを識別するための最初の標準を確立し、様々なスタイルや歪みタイプにまたがる正常な人物と不正な人物の4,700個の注釈付き画像からなる包括的データセットであるDistortion-5Kを導入する。
このデータセットに基づいて、AI生成画像中の人体歪みを検出するためのビジョントランスフォーマーベースのモデルViT-HDを提案し、このモデルにより、最先端のセグメンテーションモデルと視覚言語モデルより優れ、歪みローカライゼーションにおけるF1スコア0.899とIoU0.831を達成できる。
さらに、トレーニングされたViT-HDを用いて4つの一般的なT2Iモデルを評価するために、500個の人間中心のプロンプトを用いたヒューマン歪みベンチマークを構築し、生成した画像の50%近くが歪みを含むことを示した。
この研究は、AI生成された人間の解剖学的精度を評価するための体系的なアプローチの先駆者であり、T2Iモデルの忠実性と実際の適用性を向上させるツールを提供する。
トレーニング済みのViT-HDであるDistortion-5Kデータセットは、近くGitHubリポジトリでリリースされる。
関連論文リスト
- Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。
このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。
また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:48:40Z) - Enhancing Early Diabetic Retinopathy Detection through Synthetic DR1 Image Generation: A StyleGAN3 Approach [0.0]
本研究はStyleGAN3を用いて高忠実度および多様性の微小動脈瘤を特徴とする合成DR1画像を生成する。
モデルのトレーニングには,2,602 DR1 画像のデータセットを使用し,次いで定量的指標を用いた総合評価を行った。
最終的なFIDスコアは17.29で、平均FIDは21.18(95%信頼区間20.83から21.56)を上回った。
論文 参考訳(メタデータ) (2025-01-01T21:00:58Z) - ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.760989919485894]
AI-Natural Image Discrepancy Evaluationベンチマークを導入し、重要な問題に対処する。
大規模マルチモーダルデータセットであるDNAI(Distinguishing Natural and AI- generated Images)データセットを構築した。
粒度評価フレームワークは,5つの重要な領域にわたるDNAIデータセットを包括的に評価する。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - Detecting Human Artifacts from Text-to-Image Models [16.261759535724778]
人体を含む画像を含む画像を含む画像を含むデータセット。
画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
論文 参考訳(メタデータ) (2024-11-21T05:02:13Z) - HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance [80.97360194728705]
AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
論文 参考訳(メタデータ) (2024-07-09T15:14:41Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Generative Model-Driven Synthetic Training Image Generation: An Approach
to Cognition in Rail Defect Detection [12.584718477246382]
本研究では,VAEを用いたレール欠陥の合成画像生成手法を提案する。
カナダ太平洋鉄道(Canadian Pacific Railway)の合成データセットを作成するために用いられる。
500の合成サンプルが生成され、最小の復元損失は0.021である。
論文 参考訳(メタデータ) (2023-12-31T04:34:58Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。