論文の概要: Is this Generated Person Existed in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body
- arxiv url: http://arxiv.org/abs/2411.14205v1
- Date: Thu, 21 Nov 2024 15:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:18.553282
- Title: Is this Generated Person Existed in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body
- Title(参考訳): 現実世界に存在している人? 人体異常の微細な検出と校正
- Authors: Zeqing Wang, Qingyang Ma, Wentao Wan, Haojie Li, Keze Wang, Yonghong Tian,
- Abstract要約: 既存のテキスト・トゥ・イメージやテキスト・トゥ・ビデオのモデルは、現実世界の身体構造と大きく異なるような、低品質の人間の写真を生成することが多い。
本稿では,textbfFine-fine textbfHuman-body textbfAbnormality textbfDetection textbf(D)を提案する。
本稿では,人体構造物の異常を識別し,修復し,他の内容の保存を行うHumanCalibratorというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.77110649866136
- License:
- Abstract: Recent improvements in visual synthesis have significantly enhanced the depiction of generated human photos, which are pivotal due to their wide applicability and demand. Nonetheless, the existing text-to-image or text-to-video models often generate low-quality human photos that might differ considerably from real-world body structures, referred to as "abnormal human bodies". Such abnormalities, typically deemed unacceptable, pose considerable challenges in the detection and repair of them within human photos. These challenges require precise abnormality recognition capabilities, which entail pinpointing both the location and the abnormality type. Intuitively, Visual Language Models (VLMs) that have obtained remarkable performance on various visual tasks are quite suitable for this task. However, their performance on abnormality detection in human photos is quite poor. Hence, it is quite important to highlight this task for the research community. In this paper, we first introduce a simple yet challenging task, i.e., \textbf{F}ine-grained \textbf{H}uman-body \textbf{A}bnormality \textbf{D}etection \textbf{(FHAD)}, and construct two high-quality datasets for evaluation. Then, we propose a meticulous framework, named HumanCalibrator, which identifies and repairs abnormalities in human body structures while preserving the other content. Experiments indicate that our HumanCalibrator achieves high accuracy in abnormality detection and accomplishes an increase in visual comparisons while preserving the other visual content.
- Abstract(参考訳): 視覚合成の最近の進歩は、その広範囲な適用性と需要のために重要な、生成した人間の写真の描写を著しく向上させてきた。
それでも、既存のテキスト・ツー・イメージやテキスト・トゥ・ビデオのモデルは、しばしば「異常な人体」と呼ばれる現実世界の身体構造とはかなり異なる品質の人間の写真を生成する。
このような異常は、一般的に受け入れられないと考えられており、人間の写真から検出と修復にかなりの困難をもたらす。
これらの課題は正確な異常認識能力を必要とし、位置と異常タイプの両方をピンポイントする。
直感的には、様々な視覚的タスクにおいて顕著なパフォーマンスを得た視覚言語モデル(VLM)がこのタスクに非常に適している。
しかし,人間の写真における異常検出性能は極めて低い。
したがって、この課題を研究コミュニティに強調することが極めて重要である。
本稿では,まず,単純かつ困難なタスク,すなわち,よりきめ細かな \textbf{H}uman-body \textbf{A}bnormality \textbf{D}etection \textbf{(FHAD)} を導入し,評価のための2つの高品質データセットを構築した。
そこで本研究では,ヒトキャリブレータ(HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,Hum anCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCa librator,HumanCalibrator,HumanCalibrator,HumanCalibrator,HumanCalibrator)を提案する。
実験の結果,我々のHumanCalibratorは異常検出の精度が高く,他の視覚的コンテンツを保存しながら視覚的比較の増加を達成していることがわかった。
関連論文リスト
- Detecting Human Artifacts from Text-to-Image Models [16.261759535724778]
人体を含む画像を含む画像を含む画像を含むデータセット。
画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
論文 参考訳(メタデータ) (2024-11-21T05:02:13Z) - PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization [2.3349787245442966]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要な課題である。
人間中心のVADは、人間の振る舞いのバリエーション、データの潜在的なバイアス、および人間の被写体に関連する実質的なプライバシー上の懸念など、さらなる複雑さに直面している。
近年の進歩は、プライバシの懸念を緩和し、外観バイアスを低減し、背景干渉を最小限に抑えるために、人間のポーズを高レベルな特徴として活用するポーズベースのVADに焦点を当てている。
本稿では,人間中心のポーズに基づくVADに特化して設計された,新しいトランスフォーマーベースのアーキテクチャであるPoseWatchを紹介する。
論文 参考訳(メタデータ) (2024-08-27T16:40:14Z) - HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance [80.97360194728705]
AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
論文 参考訳(メタデータ) (2024-07-09T15:14:41Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。