論文の概要: UniHuman: A Unified Model for Editing Human Images in the Wild
- arxiv url: http://arxiv.org/abs/2312.14985v1
- Date: Fri, 22 Dec 2023 05:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:22:52.884293
- Title: UniHuman: A Unified Model for Editing Human Images in the Wild
- Title(参考訳): unihuman:野生で人間の画像を編集するための統一モデル
- Authors: Nannan Li, Qing Liu, Krishna Kumar Singh, Yilin Wang, Jianming Zhang,
Bryan A. Plummer, Zhe Lin
- Abstract要約: 実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
- 参考スコア(独自算出の注目度): 52.39882260636959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human image editing includes tasks like changing a person's pose, their
clothing, or editing the image according to a text prompt. However, prior work
often tackles these tasks separately, overlooking the benefit of mutual
reinforcement from learning them jointly. In this paper, we propose UniHuman, a
unified model that addresses multiple facets of human image editing in
real-world settings. To enhance the model's generation quality and
generalization capacity, we leverage guidance from human visual encoders and
introduce a lightweight pose-warping module that can exploit different pose
representations, accommodating unseen textures and patterns. Furthermore, to
bridge the disparity between existing human editing benchmarks with real-world
data, we curated 400K high-quality human image-text pairs for training and
collected 2K human images for out-of-domain testing, both encompassing diverse
clothing styles, backgrounds, and age groups. Experiments on both in-domain and
out-of-domain test sets demonstrate that UniHuman outperforms task-specific
models by a significant margin. In user studies, UniHuman is preferred by the
users in an average of 77% of cases.
- Abstract(参考訳): 人間の画像編集には、人のポーズや服装を変えたり、テキストのプロンプトに従って画像を編集したりするタスクが含まれる。
しかし、先行研究はしばしばこれらの課題に別々に取り組み、共同学習による相互強化の利益を見落としている。
本論文では,実際の環境下での人間の画像編集の複数の側面を扱う統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を高めるために、人間の視覚エンコーダからのガイダンスを活用して、異なるポーズ表現を活用できる軽量なポーズウォーピングモジュールを導入し、目に見えないテクスチャやパターンに適応する。
さらに,既存の人体編集ベンチマークと実世界のデータとの格差を埋めるために,400Kの高品質な人体画像テキストペアをトレーニングし,ドメイン外テストのために2Kの人体画像を収集した。
ドメイン内テストセットとドメイン外テストセットの両方の実験では、UniHumanがタスク固有のモデルよりも大きなマージンで優れていることが示されている。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
関連論文リスト
- Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。
本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。
ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文 参考訳(メタデータ) (2024-11-25T12:37:13Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - PixelHuman: Animatable Neural Radiance Fields from Few Images [27.932366091437103]
我々は,人の数枚の画像からアニマタブルな人間のシーンを生成する新しいレンダリングモデルであるPixelHumanを提案する。
提案手法は既存の手法と異なり, 人体合成のための任意の入力画像に一般化可能である。
実験により,本手法はマルチビューで最先端の性能を達成し,少数ショット画像から新しいポーズ合成を実現する。
論文 参考訳(メタデータ) (2023-07-18T08:41:17Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Subject-independent Human Pose Image Construction with Commodity Wi-Fi [24.099783319415913]
本稿では,人間のポーズイメージ構築における主観一般化問題の解決に焦点を当てる。
ドメイン非依存ニューラルネットワーク(DINN)を設計し、被写体非依存の特徴を抽出し、それらをきめ細かい人間のポーズ画像に変換する。
プロトタイプシステムを構築し,実験結果から,コモディティWi-Fiを用いた新しい被験者の人物ポーズ画像のきめ細かい構築が可能であることを実証した。
論文 参考訳(メタデータ) (2020-12-22T03:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。