論文の概要: Populate-A-Scene: Affordance-Aware Human Video Generation
- arxiv url: http://arxiv.org/abs/2507.00334v1
- Date: Tue, 01 Jul 2025 00:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.135572
- Title: Populate-A-Scene: Affordance-Aware Human Video Generation
- Title(参考訳): Populate-A-Scene: Affordance-Aware Human Video Generation
- Authors: Mengyi Shan, Zecheng He, Haoyu Ma, Felix Juefei-Xu, Peizhao Zhang, Tingbo Hou, Ching-Yao Chuang,
- Abstract要約: 我々は、人間と環境の相互作用を予測することによって、テキスト・ビデオ・モデルの空き感の可能性を探究する。
モデルを微調整し、人物をシーンに挿入し、コヒーレントな振る舞い、外観、調和、シーンの余裕を確保する。
クロスアテンション・ヒートマップの詳細な研究により、ラベル付きアベイランスデータセットを使わずに、トレーニング済みのビデオモデルの本質的なアベイランスの知覚を明らかにすることができることを示した。
- 参考スコア(独自算出の注目度): 31.083046400077176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a video generation model be repurposed as an interactive world simulator? We explore the affordance perception potential of text-to-video models by teaching them to predict human-environment interaction. Given a scene image and a prompt describing human actions, we fine-tune the model to insert a person into the scene, while ensuring coherent behavior, appearance, harmonization, and scene affordance. Unlike prior work, we infer human affordance for video generation (i.e., where to insert a person and how they should behave) from a single scene image, without explicit conditions like bounding boxes or body poses. An in-depth study of cross-attention heatmaps demonstrates that we can uncover the inherent affordance perception of a pre-trained video model without labeled affordance datasets.
- Abstract(参考訳): 映像生成モデルはインタラクティブな世界シミュレータとして再利用できるのか?
我々は、人間と環境の相互作用を予測することによって、テキスト・ビデオ・モデルの空き感の可能性を探究する。
シーンイメージと人間の行動を説明するプロンプトが与えられた場合、人間をシーンに挿入するように微調整し、コヒーレントな振る舞い、外観、調和、シーンの余裕を確保する。
従来の作業と異なり、拘束箱や身体のポーズのような明示的な条件を伴わずに、単一のシーン画像から人間のビデオ生成能力(例えば、人物を挿入する場所と、どのように振る舞うか)を推測する。
クロスアテンション・ヒートマップの詳細な研究により、ラベル付きアベイランスデータセットを使わずに、トレーニング済みのビデオモデルの本質的なアベイランスの知覚を明らかにすることができることを示した。
関連論文リスト
- ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation [17.438484695828276]
我々は,ゼロショット4次元人間とシーンの相互作用合成を可能にする新しいアプローチであるZeroHSIを提案する。
私たちの重要な洞察は、最先端のビデオ生成モデルから人間とシーンのインタラクションを抽出することです。
ZeroHSIは静的シーンと環境の両方でリアルな人間の動きを動的オブジェクトで合成することができる。
論文 参考訳(メタデータ) (2024-12-24T18:55:38Z) - FIction: 4D Future Interaction Prediction from Video [63.37136159797888]
ビデオからの4次元未来のインタラクション予測のためのFIctionを紹介する。
人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
論文 参考訳(メタデータ) (2024-12-01T18:44:17Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - PixelHuman: Animatable Neural Radiance Fields from Few Images [27.932366091437103]
我々は,人の数枚の画像からアニマタブルな人間のシーンを生成する新しいレンダリングモデルであるPixelHumanを提案する。
提案手法は既存の手法と異なり, 人体合成のための任意の入力画像に一般化可能である。
実験により,本手法はマルチビューで最先端の性能を達成し,少数ショット画像から新しいポーズ合成を実現する。
論文 参考訳(メタデータ) (2023-07-18T08:41:17Z) - Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes [61.63825003487104]
本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。