論文の概要: Detecting Human Artifacts from Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2411.13842v1
- Date: Thu, 21 Nov 2024 05:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:13.138985
- Title: Detecting Human Artifacts from Text-to-Image Models
- Title(参考訳): テキスト・画像モデルによる人工物検出
- Authors: Kaihong Wang, Lingzhi Zhang, Jianming Zhang,
- Abstract要約: 人体を含む画像を含む画像を含む画像を含むデータセット。
画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
- 参考スコア(独自算出の注目度): 16.261759535724778
- License:
- Abstract: Despite recent advancements, text-to-image generation models often produce images containing artifacts, especially in human figures. These artifacts appear as poorly generated human bodies, including distorted, missing, or extra body parts, leading to visual inconsistencies with typical human anatomy and greatly impairing overall fidelity. In this study, we address this challenge by curating Human Artifact Dataset (HAD), the first large-scale dataset specifically designed to identify and localize human artifacts. HAD comprises over 37,000 images generated by several popular text-to-image models, annotated for human artifact localization. Using this dataset, we train the Human Artifact Detection Models (HADM), which can identify diverse artifact types across multiple generative domains and demonstrate strong generalization, even on images from unseen generators. Additionally, to further improve generators' perception of human structural coherence, we use the predictions from our HADM as feedback for diffusion model finetuning. Our experiments confirm a reduction in human artifacts in the resulting model. Furthermore, we showcase a novel application of our HADM in an iterative inpainting framework to correct human artifacts in arbitrary images directly, demonstrating its utility in improving image quality. Our dataset and detection models are available at: \url{https://github.com/wangkaihong/HADM}.
- Abstract(参考訳): 近年の進歩にもかかわらず、テキスト・ツー・イメージ生成モデルは、特に人物の人工物を含む画像を生成することが多い。
これらの人工物は、歪んだり、欠けたり、余分な身体部分を含む、貧弱な人体として現れ、典型的な人間の解剖と視覚的不整合を生じさせ、全体的な忠実性を著しく損なう。
本研究では,ヒトの人工物の同定とローカライズを目的とした,最初の大規模データセットであるHuman Artifact Dataset (HAD) をキュレートすることで,この問題に対処する。
HADは、複数の一般的なテキスト画像モデルによって生成される37,000以上の画像で構成され、人間のアーティファクトローカライゼーションに注釈付けされている。
このデータセットを用いて、複数の生成領域にまたがる多様なアーティファクトタイプを識別し、目に見えないジェネレータの画像でさえも強力な一般化を示すことができるヒューマンアーティファクト検出モデル(Human Artifact Detection Models, HADM)を訓練する。
また,人体構造コヒーレンスに対するジェネレータの認識をさらに改善するため,拡散モデル微調整のフィードバックとしてHADMからの予測を用いる。
実験により, 結果のモデルにおけるヒトの人工物の減少が確認された。
さらに,任意の画像中の人工物を直接補正する反復塗布方式によるHADMの新規な応用について紹介し,画像品質の向上にその有用性を示す。
我々のデータセットと検出モデルは、以下の通りである。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文 参考訳(メタデータ) (2024-09-16T10:13:06Z) - HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance [80.97360194728705]
AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
論文 参考訳(メタデータ) (2024-07-09T15:14:41Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。
本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文 参考訳(メタデータ) (2024-01-22T18:08:22Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Diffusion-HPC: Synthetic Data Generation for Human Mesh Recovery in
Challenging Domains [2.7624021966289605]
本研究では,人体構造に関する事前の知識を注入することにより,人体を用いた写真リアルな画像を生成するテキスト条件付き手法を提案する。
生成した画像には3Dメッシュが伴い、ヒューマンメッシュ回復タスクを改善するための土台となる。
論文 参考訳(メタデータ) (2023-03-16T17:53:44Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。