論文の概要: Environment-Specific People
- arxiv url: http://arxiv.org/abs/2312.14579v1
- Date: Fri, 22 Dec 2023 10:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:31:08.234455
- Title: Environment-Specific People
- Title(参考訳): 環境に特有な人々
- Authors: Mirela Ostrek, Soubhik Sanyal, Carol O'Sullivan, Michael J. Black,
Justus Thies
- Abstract要約: コンテキスト対応フルボディ生成のための新しい手法であるESPを提案する。
ESPは、環境写真から抽出された2Dポーズとコンテキストキューに条件付けされる。
本研究では,ESPがコンテキストフルボディ生成のタスクにおいて,最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 59.14959529735115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in generative image synthesis and full-body
generation in particular, state-of-the-art methods are either
context-independent, overly reliant to text prompts, or bound to the curated
training datasets, such as fashion images with monotonous backgrounds. Here,
our goal is to generate people in clothing that is semantically appropriate for
a given scene. To this end, we present ESP, a novel method for context-aware
full-body generation, that enables photo-realistic inpainting of people into
existing "in-the-wild" photographs. ESP is conditioned on a 2D pose and
contextual cues that are extracted from the environment photograph and
integrated into the generation process. Our models are trained on a dataset
containing a set of in-the-wild photographs of people covering a wide range of
different environments. The method is analyzed quantitatively and
qualitatively, and we show that ESP outperforms state-of-the-art on the task of
contextual full-body generation.
- Abstract(参考訳): 生成画像合成とフルボディ生成の進歩にもかかわらず、最先端の手法は文脈に依存しず、テキストプロンプトに過度に依存しているか、あるいは単調な背景を持つファッション画像のようなキュレートされたトレーニングデータセットに縛られている。
ここでの目標は、特定のシーンに意味的に適切な服装の人々を作ることです。
そこで本研究では,既存の「野生内」写真に人物を写実的に塗り替えることのできる,コンテクスト認識フルボディ生成のための新しい手法であるespを提案する。
ESPは、環境写真から抽出され、生成プロセスに統合された2Dポーズおよびコンテキストキューに条件付けされる。
当社のモデルは、さまざまな環境をカバーする人々の野生の写真セットを含むデータセットでトレーニングされています。
本手法は定量的かつ定性的に分析され,ESPがコンテキストフルボディ生成のタスクにおいて最先端の処理性能を発揮することを示す。
関連論文リスト
- Learning Complex Non-Rigid Image Edits from Multimodal Conditioning [18.500715348636582]
我々は、与えられた人間(具体的には人の1つのイメージ)を新しいシーンに挿入することに集中する。
安定拡散の上に構築された本手法は,テキストとポーズを高度に制御し,自然な画像を生成する。
身元保存は「夢中」の場面、特に人と物体が相互作用する場面において、より困難な課題であることを示す。
論文 参考訳(メタデータ) (2024-12-13T15:41:08Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Semantically Consistent Person Image Generation [18.73832646369506]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z) - Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。
本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。
定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文 参考訳(メタデータ) (2020-05-01T12:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。