論文の概要: Hallucinating Pose-Compatible Scenes
- arxiv url: http://arxiv.org/abs/2112.06909v1
- Date: Mon, 13 Dec 2021 18:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:45:45.233028
- Title: Hallucinating Pose-Compatible Scenes
- Title(参考訳): ポーズ互換シーンの幻覚
- Authors: Tim Brooks, Alexei A. Efros
- Abstract要約: ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
- 参考スコア(独自算出の注目度): 55.064949607528405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What does human pose tell us about a scene? We propose a task to answer this
question: given human pose as input, hallucinate a compatible scene. Subtle
cues captured by human pose -- action semantics, environment affordances,
object interactions -- provide surprising insight into which scenes are
compatible. We present a large-scale generative adversarial network for
pose-conditioned scene generation. We significantly scale the size and
complexity of training data, curating a massive meta-dataset containing over 19
million frames of humans in everyday environments. We double the capacity of
our model with respect to StyleGAN2 to handle such complex data, and design a
pose conditioning mechanism that drives our model to learn the nuanced
relationship between pose and scene. We leverage our trained model for various
applications: hallucinating pose-compatible scene(s) with or without humans,
visualizing incompatible scenes and poses, placing a person from one generated
image into another scene, and animating pose. Our model produces diverse
samples and outperforms pose-conditioned StyleGAN2 and Pix2Pix baselines in
terms of accurate human placement (percent of correct keypoints) and image
quality (Frechet inception distance).
- Abstract(参考訳): 人間のポーズはシーンについて何を教えてくれますか。
我々は、人間が入力としてポーズをとれば、相性のあるシーンを幻覚させるという、この問いに答えるためのタスクを提案する。
人間のポーズによって捉えられた微妙なヒント -- アクションセマンティクス、環境アフォーアンス、オブジェクトインタラクション -- は、どのシーンが互換性があるのかという驚くべき洞察を与えてくれる。
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
トレーニングデータのサイズと複雑さを大幅に拡大し、毎日の環境で1900万フレーム以上の人間を含む巨大なメタデータセットをキュレーションします。
このような複雑なデータを扱うために、StyleGAN2に関するモデルの容量を2倍にし、ポーズとシーン間の微妙な関係を学習するためのポーズ条件付け機構を設計します。
人間の有無に関わらず、ポーズ互換のシーンを幻覚させる、非互換のシーンとポーズを可視化する、ある生成されたイメージから別のシーンに人を配置する、ポーズをアニメーションする、などです。
提案モデルでは,ポーズ条件付きStyleGAN2およびPix2Pixベースラインの精度(キーポイントの比率)と画像品質(フレッシュ開始距離)において,多種多様なサンプルを生成し,性能を向上する。
関連論文リスト
- PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes [61.63825003487104]
本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - HumanGAN: A Generative Model of Humans Images [78.6284090004218]
本研究では,ポーズ,局所的な身体部分の外観,衣料品スタイルを制御できる服装者の画像生成モデルを提案する。
本モデルでは,正規化されたポーズ非依存空間に部分的潜在性出現ベクトルをエンコードし,異なるポーズに誘導し,様々な姿勢で身体や衣服の外観を保っている。
論文 参考訳(メタデータ) (2021-03-11T19:00:38Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Holistic 3D Human and Scene Mesh Estimation from Single View Images [5.100152971410397]
本稿では,1枚のRGB画像から3Dシーンを知覚するエンド・ツー・エンドのトレーニング可能なモデルを提案する。
本研究では,既存の人体メッシュ法や屋内シーン再構築法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-02T23:22:03Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。