論文の概要: Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes
- arxiv url: http://arxiv.org/abs/2304.14406v1
- Date: Thu, 27 Apr 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:56:05.656326
- Title: Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes
- Title(参考訳): 身の回りに人間を配置する - 身近な人間を舞台に
- Authors: Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan
Lu, Alexei A. Efros, Krishna Kumar Singh
- Abstract要約: 本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
- 参考スコア(独自算出の注目度): 61.63825003487104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of inferring scene affordances by presenting a method
for realistically inserting people into scenes. Given a scene image with a
marked region and an image of a person, we insert the person into the scene
while respecting the scene affordances. Our model can infer the set of
realistic poses given the scene context, re-pose the reference person, and
harmonize the composition. We set up the task in a self-supervised fashion by
learning to re-pose humans in video clips. We train a large-scale diffusion
model on a dataset of 2.4M video clips that produces diverse plausible poses
while respecting the scene context. Given the learned human-scene composition,
our model can also hallucinate realistic people and scenes when prompted
without conditioning and also enables interactive editing. A quantitative
evaluation shows that our method synthesizes more realistic human appearance
and more natural human-scene interactions than prior work.
- Abstract(参考訳): シーンに現実的に人物を挿入する手法を提示することにより、シーンアフォーアンスを推測する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンコンテキストを考慮した現実的なポーズのセットを推定し,参照人物を再配置し,構成を調和させることができる。
ビデオクリップに人間を配置することを学ぶことで、自己指導型でタスクをセットアップした。
我々は,シーンコンテキストを尊重しながら多彩な多彩なポーズを生成する2.4mビデオクリップのデータセット上で,大規模拡散モデルを訓練する。
学習した人間-シーン構成を考えると,コンディショニングを必要とせず,リアルな人物やシーンを表現できるだけでなく,インタラクティブな編集も可能となる。
定量的評価の結果,本手法は従来の作業よりもリアルな外観と自然な人間とシーンの相互作用を合成することが示された。
関連論文リスト
- Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - PixelHuman: Animatable Neural Radiance Fields from Few Images [27.932366091437103]
我々は,人の数枚の画像からアニマタブルな人間のシーンを生成する新しいレンダリングモデルであるPixelHumanを提案する。
提案手法は既存の手法と異なり, 人体合成のための任意の入力画像に一般化可能である。
実験により,本手法はマルチビューで最先端の性能を達成し,少数ショット画像から新しいポーズ合成を実現する。
論文 参考訳(メタデータ) (2023-07-18T08:41:17Z) - Scene Synthesis from Human Motion [26.2618553074691]
そこで本研究では,人間の動作に基づいて,多様で意味論的に合理的で,物理的に妥当なシーンを合成することを提案する。
Human Motion (MONSUM) のシーン・シンセサイザーには2つのステップがある。
まず、新たに導入されたコンタクト予測器であるContactFormerを使用して、人間の動きから時間的に一貫したコンタクトラベルを取得する。
論文 参考訳(メタデータ) (2023-01-04T03:30:46Z) - NeuMan: Neural Human Radiance Field from a Single Video [26.7471970027198]
我々は、人間のNeRFモデルとシーンのNeRFモデルという2つのNeRFモデルを訓練する。
本手法では,10秒間のビデオクリップから,布のしわやアクセサリなど,対象の詳細を学習することができる。
論文 参考訳(メタデータ) (2022-03-23T17:35:50Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Comparing Visual Reasoning in Humans and AI [66.89451296340809]
人間の行動や社会的相互作用を含む複雑なシーンのデータセットを作成しました。
ai/ヒューマンのシーン記述と、各シーンの他の5つの人間記述の地上真実との類似度を定量的に測定した。
結果は、機械/人間の合意シーンの説明は、私たちの複雑なシーンの人間/人間の合意よりもはるかに低いことを示しています。
論文 参考訳(メタデータ) (2021-04-29T04:44:13Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。