Fugu-MT 論文翻訳(概要): InsHuman: Towards Natural and Identity-Preserving Human Insertion

論文の概要: InsHuman: Towards Natural and Identity-Preserving Human Insertion

arxiv url: http://arxiv.org/abs/2605.07402v1
Date: Fri, 08 May 2026 07:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.907537
Title: InsHuman: Towards Natural and Identity-Preserving Human Insertion
Title（参考訳）: InsHuman: 自然でアイデンティティを保ったヒューマンインサーションを目指して
Authors: Jie Li, Shulian Zhang, Yangyang Gao, Wenbo Li, Yulun Zhang, Yong Guo, Jian Chen,
Abstract要約: InsHumanは自然とアイデンティティを保った人間の挿入に対して提案する。具体的には,前景の人間を検知して二元マスクを得るHBAFを提案する。また、生成した画像とソース画像の顔を検出し、一致させるFFIP(Face-to-Face ID-Preserving)を提案する。
参考スコア（独自算出の注目度）: 37.70158864105303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human insertion aims to naturally place specific individuals into a target background. Although existing image editing models may have such ability, they often produce failure cases, including inappropriate human pose in new background, inconsistent number of people, and modified facial identity. Moreover, publicly available human datasets often lack full-body portraits and realistic physical interaction between humans and their background. To address these challenges, we propose InsHuman for natural and identity-preserving human insertion. Specifically, we propose Human-Background Adaptive Fusion (HBAF), which detects foreground humans to obtain a binary mask and applies region-aware weighting to align the human regions between predicted and ground-truth latents, ensuring the person's pose, count, and overall appearance are coherently adapted to the target background.We further propose Face-to-Face ID-Preserving (FFIP), which detects and matches faces between the generated image and the source image in terms of face recognition features to enforce identity consistency for each face.In addition, we propose Bidirectional Data Pairing (BDP) strategy to construct BDP-InsHuman, a high-quality dataset with realistic human-background interactions. Experiments demonstrate that InsHuman achieves significant improvements in generating plausible images while keeping human identity unchanged.
Abstract（参考訳）: 人間の挿入は、特定の個人を対象の背景に自然に配置することを目的としている。既存の画像編集モデルはそのような能力を持つ可能性があるが、新しい背景における不適切な人間のポーズ、一貫性のない人数、修正された顔認証など、しばしば失敗ケースを生成する。さらに、一般公開された人間のデータセットには、フルボディのポートレートや、人間とその背景との現実的な物理的相互作用が欠如していることが多い。これらの課題に対処するため、自然とアイデンティティ保護のためのInsHumanを提案する。具体的には,前景の人間が二面体マスクを得るのを検知し,その領域を重み付けして,予測された暗黙の潜伏者間での人間領域の整合を図り,人のポーズ,カウント,全体的な外観が目的の背景に忠実に適合することを保証するHBAFを提案する。さらに,顔の相互整合性を強制する顔認識機能を用いて,生成された画像とソース画像間の顔を検出し,マッチングするFFIPについても提案する。さらに,BDP(Bidirectional Data Pairing)戦略により,現実的な背景相互作用を持つ高品質なデータセットであるBDP-InsHumanを構築する。実験により、InsHumanは人間のアイデンティティを一定に保ちながら、可視画像の生成において大幅な改善を達成していることが示された。

関連論文リスト

HOComp: Interaction-Aware Human-Object Composition [62.93211305213214]
HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
論文参考訳（メタデータ） (2025-07-22T17:59:21Z)
Improving Personalized Image Generation through Social Context Feedback [15.582260415127935]
本稿では、既存のパーソナライズされた生成手法をフィードバックベースで微調整することで、これらの欠点を克服することを提案する。拡散モデルを洗練させるために、ポーズ、人物相互作用、人間の顔認識、人間の視線点推定の最先端検出器を用いる。この方法で生成された画像は、3つのベンチマークデータセット上で生成されたインタラクション、顔のアイデンティティ、画像品質の改善を示している。
論文参考訳（メタデータ） (2025-07-21T22:36:30Z)
Leveraging Generative AI Models to Explore Human Identity [1.8139774424530175]
本稿では、ニューラルネットワークを間接的に活用して、人間のアイデンティティを探求する。生成した人間の顔と人間の身元を関連付けることにより、顔画像生成プロセスと人間の身元形成プロセスとの対応性を確立する。
論文参考訳（メタデータ） (2025-04-19T12:35:07Z)
Turn That Frown Upside Down: FaceID Customization via Cross-Training Data [49.51940625552275]
CrossFaceIDは、FaceIDカスタマイズモデルの顔修正機能を改善するために設計された、最初の大規模で高品質で公開可能なデータセットである。約2000人から4万対のテキスト画像で構成され、それぞれが顔の特徴を示す約20の画像で表現されている。トレーニング段階では、人物の特定の顔が入力として使用され、FaceIDカスタマイズモデルは、同一人物の別の画像を生成することを余儀なくされるが、顔の特徴が変化している。実験により、CrossFaceIDデータセットに微調整されたモデルが、FaceIDの忠実性を保ちながら、その性能を著しく向上することが示された。
論文参考訳（メタデータ） (2025-01-26T05:27:38Z)
PersonaHOI: Effortlessly Improving Personalized Face with Human-Object Interaction Generation [62.85437763951757]
PersonaHOIは、一般の安定拡散モデルとパーソナライズされた顔拡散(PFD)モデルとを融合させて、アイデンティティ一貫性のある人間-オブジェクト相互作用(HOI)画像を生成する、トレーニングおよびチューニング不要なフレームワークである。
論文参考訳（メタデータ） (2025-01-10T10:01:36Z)
Boost Your Human Image Generation Model via Direct Preference Optimization [5.9726297901501475]
人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。提案手法は,好ましくない(損失)画像から分岐しながら,好ましくない(勝利)画像を生成するようにモデルを訓練するDPO(Direct Preference Optimization)を提案する。本稿では,高品質な実画像を勝利画像として取り入れたDPO手法を提案する。
論文参考訳（メタデータ） (2024-05-30T16:18:05Z)
StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文参考訳（メタデータ） (2024-01-29T09:06:15Z)
Graph-based Generative Face Anonymisation with Pose Preservation [49.18049578591058]
AnonyGANは、顔の匿名化のためのGANベースのソリューションである。ソースアイデンティティに対応する視覚情報を、任意の単一のイメージとして提供される条件IDに置き換える。
論文参考訳（メタデータ） (2021-12-10T12:58:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。