論文の概要: Text2Place: Affordance-aware Text Guided Human Placement
- arxiv url: http://arxiv.org/abs/2407.15446v1
- Date: Mon, 22 Jul 2024 08:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:50:49.947218
- Title: Text2Place: Affordance-aware Text Guided Human Placement
- Title(参考訳): Text2Place:人間の配置をガイドするアフォーマンス対応テキスト
- Authors: Rishubh Parihar, Harsh Gupta, Sachidanand VS, R. Venkatesh Babu,
- Abstract要約: この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
- 参考スコア(独自算出の注目度): 26.041917073228483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For a given scene, humans can easily reason for the locations and pose to place objects. Designing a computational model to reason about these affordances poses a significant challenge, mirroring the intuitive reasoning abilities of humans. This work tackles the problem of realistic human insertion in a given background scene termed as \textbf{Semantic Human Placement}. This task is extremely challenging given the diverse backgrounds, scale, and pose of the generated person and, finally, the identity preservation of the person. We divide the problem into the following two stages \textbf{i)} learning \textit{semantic masks} using text guidance for localizing regions in the image to place humans and \textbf{ii)} subject-conditioned inpainting to place a given subject adhering to the scene affordance within the \textit{semantic masks}. For learning semantic masks, we leverage rich object-scene priors learned from the text-to-image generative models and optimize a novel parameterization of the semantic mask, eliminating the need for large-scale training. To the best of our knowledge, we are the first ones to provide an effective solution for realistic human placements in diverse real-world scenes. The proposed method can generate highly realistic scene compositions while preserving the background and subject identity. Further, we present results for several downstream tasks - scene hallucination from a single or multiple generated persons and text-based attribute editing. With extensive comparisons against strong baselines, we show the superiority of our method in realistic human placement.
- Abstract(参考訳): 特定のシーンでは、人間が簡単に場所を判断し、オブジェクトを配置するポーズをとることができる。
これらの余裕を推論するために計算モデルを設計することは、人間の直感的な推論能力を反映する重要な課題となる。
本研究は,「textbf{Semantic Human Placement}」と呼ばれる背景シーンにおける現実的な人間挿入の問題に取り組む。
このタスクは、生成した人の多様な背景、スケール、ポーズ、そして最後に、その人のアイデンティティを保存することを考えると、非常に難しい。
本研究では,画像中の領域を位置づけして人間を配置するためのテキストガイダンスを用いた「textbf{i} Learning \textit{semantic masks}」と、「textit{semantic masks}」内のシーンの空き度に忠実な被写体を配置するための「textbf{ii}」の2つの段階に分割する。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの事前情報を活用し,セマンティックマスクの新しいパラメータ化を最適化し,大規模トレーニングの必要性を解消する。
私たちの知識を最大限に活用するために、私たちは、さまざまな現実世界のシーンにおいて、現実的な人間の配置に効果的なソリューションを提供する最初の人です。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
さらに,複数のダウンストリームタスク – 単一あるいは複数生成した人物からのシーン幻覚とテキストベースの属性編集 – の結果を提示する。
強いベースラインとの比較により,現実的な人間配置における手法の優位性を示す。
関連論文リスト
- Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes [61.63825003487104]
本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Global Context-Aware Person Image Generation [24.317541784957285]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。