論文の概要: Teleportraits: Training-Free People Insertion into Any Scene
- arxiv url: http://arxiv.org/abs/2510.05660v1
- Date: Tue, 07 Oct 2025 08:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.153143
- Title: Teleportraits: Training-Free People Insertion into Any Scene
- Title(参考訳): Teleportraits:どんな場面でもトレーニング不要の人
- Authors: Jialu Gao, K J Joseph, Fernando De La Torre,
- Abstract要約: 我々は、事前訓練されたテキスト-画像拡散モデルを活用する、統合されたトレーニングフリーパイプラインを導入する。
拡散モデルは、タスク固有の訓練を必要とせず、複雑な場面に人々を配置する知識を本質的に持っていることを示す。
本手法は,視覚障害者をシームレスにシーンに挿入し,手頃なグローバル編集を実現する。
- 参考スコア(独自算出の注目度): 59.76038137014233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of realistically inserting a human from a reference image into a background scene is highly challenging, requiring the model to (1) determine the correct location and poses of the person and (2) perform high-quality personalization conditioned on the background. Previous approaches often treat them as separate problems, overlooking their interconnections, and typically rely on training to achieve high performance. In this work, we introduce a unified training-free pipeline that leverages pre-trained text-to-image diffusion models. We show that diffusion models inherently possess the knowledge to place people in complex scenes without requiring task-specific training. By combining inversion techniques with classifier-free guidance, our method achieves affordance-aware global editing, seamlessly inserting people into scenes. Furthermore, our proposed mask-guided self-attention mechanism ensures high-quality personalization, preserving the subject's identity, clothing, and body features from just a single reference image. To the best of our knowledge, we are the first to perform realistic human insertions into scenes in a training-free manner and achieve state-of-the-art results in diverse composite scene images with excellent identity preservation in backgrounds and subjects.
- Abstract(参考訳): 基準画像から背景シーンに人間をリアルに挿入する作業は非常に困難であり、(1)適切な位置とポーズを判断し、(2)背景に設定された高品質なパーソナライズを行う必要がある。
従来のアプローチでは、相互接続を見渡すことで、分離した問題として扱うことが多く、通常は高いパフォーマンスを達成するためのトレーニングに頼っている。
本研究では,事前学習したテキスト-画像拡散モデルを活用する,統合学習自由パイプラインを提案する。
拡散モデルは、タスク固有の訓練を必要とせず、複雑な場面に人々を配置する知識を本質的に持っていることを示す。
そこで本手法は,インバージョン手法と無分類指導を組み合わせることで,シーンに人々をシームレスに挿入し,手頃なグローバルな編集を実現する。
さらに, マスク誘導型自己注意機構により, 被験者の身元, 衣服, 身体の特徴を単一の参照画像から保護し, 高品質なパーソナライズを実現する。
我々の知識を最大限に活用するために、私たちは、訓練のない方法で現実的な人間によるシーン挿入を行い、背景や被写体に優れたアイデンティティを保った多様な複合シーン画像において、最先端の成果を達成した最初の人物である。
関連論文リスト
- From Wardrobe to Canvas: Wardrobe Polyptych LoRA for Part-level Controllable Human Image Generation [44.46447676191666]
パーソナライズされた画像生成のための制御可能な部分レベル制御モデルであるWardrobe Polyptych LoRAを提案する。
提案手法は,LoRA層のみをトレーニングすることにより,未知の被写体の高忠実性合成を確保しつつ,推論時の計算負担を軽減する。
提案手法は, 忠実度と整合性において既存の技術よりも優れ, 現実的かつアイデンティティを保ったフルボディ合成を実現する。
論文 参考訳(メタデータ) (2025-07-14T12:34:25Z) - Person-In-Situ: Scene-Consistent Human Image Insertion with Occlusion-Aware Pose Control [1.529342790344802]
既存の方法では、前景の物によって挿入された人の閉塞を処理できず、非自然に最前面の層に配置することができない。
これらの課題に対処する2つの方法を提案する。
どちらも、3Dボディモデルによる明示的なポーズ制御を可能にし、潜時拡散モデルを利用して、文脈的に適切な深さで人物を合成する。
論文 参考訳(メタデータ) (2025-05-07T01:47:15Z) - Learning Complex Non-Rigid Image Edits from Multimodal Conditioning [18.500715348636582]
我々は、与えられた人間(具体的には人の1つのイメージ)を新しいシーンに挿入することに集中する。
安定拡散の上に構築された本手法は,テキストとポーズを高度に制御し,自然な画像を生成する。
身元保存は「夢中」の場面、特に人と物体が相互作用する場面において、より困難な課題であることを示す。
論文 参考訳(メタデータ) (2024-12-13T15:41:08Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Photoswap: Personalized Subject Swapping in Images [56.2650908740358]
Photowapは参照画像から対象の視覚概念を学習し、事前訓練された拡散モデルを用いて対象画像に置き換える。
Photowapは、被験者のスワップ、背景保存、全体的な品質において、人間の評価におけるベースラインの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-29T17:56:13Z) - Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes [61.63825003487104]
本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。