論文の概要: Person-In-Situ: Scene-Consistent Human Image Insertion with Occlusion-Aware Pose Control
- arxiv url: http://arxiv.org/abs/2505.04052v1
- Date: Wed, 07 May 2025 01:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.947781
- Title: Person-In-Situ: Scene-Consistent Human Image Insertion with Occlusion-Aware Pose Control
- Title(参考訳): 人物-in-situ: Occlusion-Aware Pose Control を用いたシーン一貫性人間の画像挿入
- Authors: Shun Masuda, Yuki Endo, Yoshihiro Kanamori,
- Abstract要約: 既存の方法では、前景の物によって挿入された人の閉塞を処理できず、非自然に最前面の層に配置することができない。
これらの課題に対処する2つの方法を提案する。
どちらも、3Dボディモデルによる明示的なポーズ制御を可能にし、潜時拡散モデルを利用して、文脈的に適切な深さで人物を合成する。
- 参考スコア(独自算出の注目度): 1.529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositing human figures into scene images has broad applications in areas such as entertainment and advertising. However, existing methods often cannot handle occlusion of the inserted person by foreground objects and unnaturally place the person in the frontmost layer. Moreover, they offer limited control over the inserted person's pose. To address these challenges, we propose two methods. Both allow explicit pose control via a 3D body model and leverage latent diffusion models to synthesize the person at a contextually appropriate depth, naturally handling occlusions without requiring occlusion masks. The first is a two-stage approach: the model first learns a depth map of the scene with the person through supervised learning, and then synthesizes the person accordingly. The second method learns occlusion implicitly and synthesizes the person directly from input data without explicit depth supervision. Quantitative and qualitative evaluations show that both methods outperform existing approaches by better preserving scene consistency while accurately reflecting occlusions and user-specified poses.
- Abstract(参考訳): 人物像をシーンイメージに組み込むことは、エンターテイメントや広告などの分野で広く応用されている。
しかし、既存の方法では、前景の物体によって挿入された人物の閉塞を処理できず、その人物を最前面の層に不自然に配置することがしばしばある。
また、挿入された人のポーズを限定的に制御する。
これらの課題に対処するために,我々は2つの方法を提案する。
どちらも3Dボディモデルによる明示的なポーズ制御を可能にし、潜伏拡散モデルを利用してコンテキスト的に適切な深さで人物を合成する。
1つ目は2段階のアプローチで、まずモデルが教師付き学習を通して人物とシーンの深度マップを学習し、それに従って人物を合成する。
第2の方法は、隠蔽を暗黙的に学習し、明示的な深度監視なしに、入力データから直接人を合成する。
定量的および質的評価により,両手法はシーンの一貫性を向上し,オクルージョンやユーザ特定ポーズを正確に反映することにより,既存手法よりも優れていることが示された。
関連論文リスト
- PersonaCraft: Personalized and Controllable Full-Body Multi-Human Scene Generation Using Occlusion-Aware 3D-Conditioned Diffusion [11.86021588469762]
PersonaCraftは、複雑なシーンで複数の個人をパーソナライズする、コントロール可能でオクルージョンを損なうフルボディ画像合成のためのフレームワークである。
SMPLxをベースとした形状パラメータとテクスチュアリファインメントを併用した双方向の体形表現により,高精度な全身のパーソナライズとフレキシブルなユーザ定義体形調整が可能となった。
論文 参考訳(メタデータ) (2024-11-27T05:41:15Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion [22.62170098534097]
人間の2次元ポーズと表情の拡散に基づくモデルであるMagicPoseを提案する。
画像拡散モデルの事前の知識を活用することで、MagicPoseは目に見えない人間のアイデンティティや複雑なポーズをうまく一般化する。
提案したモデルは使いやすく、安定拡散に対するプラグインモジュール/拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-11-18T10:22:44Z) - Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。