論文の概要: HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance
- arxiv url: http://arxiv.org/abs/2407.06937v1
- Date: Tue, 9 Jul 2024 15:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:37:36.963676
- Title: HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance
- Title(参考訳): Human Refiner: 粗大から粗大まで可逆的な誘導による異常な人体生成と精製のベンチマーク
- Authors: Guian Fang, Wenbiao Yan, Yuanfan Guo, Jianhua Han, Zutao Jiang, Hang Xu, Shengcai Liao, Xiaodan Liang,
- Abstract要約: AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
- 参考スコア(独自算出の注目度): 80.97360194728705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have significantly advanced in conditional image generation. However, these models usually struggle with accurately rendering images featuring humans, resulting in distorted limbs and other anomalies. This issue primarily stems from the insufficient recognition and evaluation of limb qualities in diffusion models. To address this issue, we introduce AbHuman, the first large-scale synthesized human benchmark focusing on anatomical anomalies. This benchmark consists of 56K synthesized human images, each annotated with detailed, bounding-box level labels identifying 147K human anomalies in 18 different categories. Based on this, the recognition of human anomalies can be established, which in turn enhances image generation through traditional techniques such as negative prompting and guidance. To further boost the improvement, we propose HumanRefiner, a novel plug-and-play approach for the coarse-to-fine refinement of human anomalies in text-to-image generation. Specifically, HumanRefiner utilizes a self-diagnostic procedure to detect and correct issues related to both coarse-grained abnormal human poses and fine-grained anomaly levels, facilitating pose-reversible diffusion generation. Experimental results on the AbHuman benchmark demonstrate that HumanRefiner significantly reduces generative discrepancies, achieving a 2.9x improvement in limb quality compared to the state-of-the-art open-source generator SDXL and a 1.4x improvement over DALL-E 3 in human evaluations. Our data and code are available at https://github.com/Enderfga/HumanRefiner.
- Abstract(参考訳): テキストと画像の拡散モデルは条件付き画像生成において著しく進歩している。
しかしながら、これらのモデルは通常、人間を特徴とする画像の正確なレンダリングに苦しむため、変形した手足やその他の異常が生じる。
この問題は、拡散モデルにおける手足の質の認識と評価が不十分であることに起因している。
この問題に対処するため,解剖学的異常に着目した最初の大規模ヒトベンチマークであるAbHumanを紹介した。
このベンチマークは56Kの合成された人間の画像で構成されており、それぞれ18のカテゴリで147Kの人間の異常を識別する詳細な境界ボックスレベルラベルがアノテートされている。
これにより、人間の異常の認識が確立され、負のプロンプトやガイダンスといった従来の手法による画像生成が促進される。
この改良をさらに進めるために,テキスト・ツー・イメージ生成における人体異常の粗粒化のための新しいプラグ・アンド・プレイアプローチであるHumanRefinerを提案する。
具体的には、HumanRefinerは自己診断の手順を使用して、粗い人間のポーズと微粒な異常レベルの両方に関連する問題を検知し、修正し、ポーズを可逆的に生成する。
AbHumanベンチマークによる実験結果から、HumanRefinerは、最先端のオープンソースジェネレータSDXLよりも2.9倍、人体評価ではDALL-E 3よりも1.4倍、手足品質が大幅に向上することが示された。
私たちのデータとコードはhttps://github.com/Enderfga/HumanRefiner.comで公開されています。
関連論文リスト
- Is this Generated Person Existed in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body [40.77110649866136]
既存のテキスト・トゥ・イメージやテキスト・トゥ・ビデオのモデルは、現実世界の身体構造と大きく異なるような、低品質の人間の写真を生成することが多い。
本稿では,textbfFine-fine textbfHuman-body textbfAbnormality textbfDetection textbf(D)を提案する。
本稿では,人体構造物の異常を識別し,修復し,他の内容の保存を行うHumanCalibratorというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T15:13:38Z) - Detecting Human Artifacts from Text-to-Image Models [16.261759535724778]
人体を含む画像を含む画像を含む画像を含むデータセット。
画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
論文 参考訳(メタデータ) (2024-11-21T05:02:13Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines? [4.802758600019422]
2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。
ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
論文 参考訳(メタデータ) (2023-01-27T14:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。