論文の概要: Scene Aware Person Image Generation through Global Contextual
Conditioning
- arxiv url: http://arxiv.org/abs/2206.02717v1
- Date: Mon, 6 Jun 2022 16:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 18:46:02.622235
- Title: Scene Aware Person Image Generation through Global Contextual
Conditioning
- Title(参考訳): グローバルコンテクストコンディショニングによるシーン認識人物画像生成
- Authors: Prasun Roy, Subhankar Ghosh, Saumik Bhattacharya, Umapada Pal, Michael
Blumenstein
- Abstract要約: 本稿では,既存のシーンに関連性のある人物画像を生成し挿入するための新しいパイプラインを提案する。
より具体的には、挿入されている人物の位置、ポーズ、規模がシーン内の既存の人物と混ざり合うように挿入することを目的としている。
- 参考スコア(独自算出の注目度): 24.317541784957285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person image generation is an intriguing yet challenging problem. However,
this task becomes even more difficult under constrained situations. In this
work, we propose a novel pipeline to generate and insert contextually relevant
person images into an existing scene while preserving the global semantics.
More specifically, we aim to insert a person such that the location, pose, and
scale of the person being inserted blends in with the existing persons in the
scene. Our method uses three individual networks in a sequential pipeline. At
first, we predict the potential location and the skeletal structure of the new
person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on
the existing human skeletons present in the scene. Next, the predicted skeleton
is refined through a shallow linear network to achieve higher structural
accuracy in the generated image. Finally, the target image is generated from
the refined skeleton using another generative network conditioned on a given
image of the target person. In our experiments, we achieve high-resolution
photo-realistic generation results while preserving the general context of the
scene. We conclude our paper with multiple qualitative and quantitative
benchmarks on the results.
- Abstract(参考訳): 人物画像生成は興味深いが難しい問題である。
しかし、制約のある状況下では、この作業はさらに困難になる。
本研究では,既存のシーンに文脈に関連のある人物画像を生成・挿入し,グローバルセマンティクスを維持した新しいパイプラインを提案する。
より具体的には、挿入されている人物の位置、ポーズ、規模がシーン内の既存の人物と混ざり合うように挿入することを目的としている。
本手法では3つの個別ネットワークを逐次パイプラインで使用する。
まず,wassersteingenerative adversarial network (wgan) をシーンに存在する既存のヒト骨格上で条件づけることで,新たな人物の潜在的位置と骨格構造を予測する。
次に、予測された骨格を浅い線形ネットワークを介して洗練し、生成された画像の構造精度を高める。
そして、対象者の所定の画像上に条件付けられた別の生成ネットワークを用いて、洗練された骨格から目標画像を生成する。
実験では,シーンの一般的なコンテキストを保ちながら高分解能なフォトリアリスティック生成結果を得る。
結果の質的および定量的なベンチマークを複数実施して,本論文を締めくくった。
関連論文リスト
- Environment-Specific People [59.14959529735115]
コンテキスト対応フルボディ生成のための新しい手法であるESPを提案する。
ESPは、環境写真から抽出された2Dポーズとコンテキストキューに条件付けされる。
本研究では,ESPがコンテキストフルボディ生成のタスクにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T10:15:15Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Global Context-Aware Person Image Generation [24.317541784957285]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - Realistic Full-Body Anonymization with Surface-Guided GANs [7.37907896341367]
In-the-wild画像のためのリアルな人間を生成する新しい匿名化手法を提案する。
我々の設計の鍵となる部分は、画像と正準3次元表面との間の高密度画素対面対応により、対向ネットを誘導することである。
表面誘導は画像品質とサンプルの多様性を著しく改善し、非常に実用的なジェネレータが得られることを示した。
論文 参考訳(メタデータ) (2022-01-06T18:57:59Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。