論文の概要: MILD: Multi-Layer Diffusion Strategy for Complex and Precise Multi-IP Aware Human Erasing
- arxiv url: http://arxiv.org/abs/2508.06543v1
- Date: Tue, 05 Aug 2025 13:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.423469
- Title: MILD: Multi-Layer Diffusion Strategy for Complex and Precise Multi-IP Aware Human Erasing
- Title(参考訳): MILD: 複雑かつ高精度なマルチIPアウェア消去のための多層拡散戦略
- Authors: Jinghan Yu, Zhiyuan Ma, Yue Ma, Kaiqi Liu, Yuhan Wang, Jianjun Li,
- Abstract要約: 本稿では,多彩なポーズのバリエーションと複雑な背景を持つ高品質なマルチIPヒューマン消去データセットを提案する。
次に、各インスタンスと背景に対して意味的に分離された経路に生成を分解する新しい戦略であるMulti-Layer Diffusion (MILD)を提案する。
人間中心の理解を深めるために、ポーズ、パーシング、空間関係を統合したヒューマン・モルフォロジー・ガイダンスを導入する。
- 参考スコア(独自算出の注目度): 13.584673489113893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed the success of diffusion models in image-customized tasks. Prior works have achieved notable progress on human-oriented erasing using explicit mask guidance and semantic-aware inpainting. However, they struggle under complex multi-IP scenarios involving human-human occlusions, human-object entanglements, and background interferences. These challenges are mainly due to: 1) Dataset limitations, as existing datasets rarely cover dense occlusions, camouflaged backgrounds, and diverse interactions; 2) Lack of spatial decoupling, where foreground instances cannot be effectively disentangled, limiting clean background restoration. In this work, we introduce a high-quality multi-IP human erasing dataset with diverse pose variations and complex backgrounds. We then propose Multi-Layer Diffusion (MILD), a novel strategy that decomposes generation into semantically separated pathways for each instance and the background. To enhance human-centric understanding, we introduce Human Morphology Guidance, integrating pose, parsing, and spatial relations. We further present Spatially-Modulated Attention to better guide attention flow. Extensive experiments show that MILD outperforms state-of-the-art methods on challenging human erasing benchmarks.
- Abstract(参考訳): 近年、画像認識タスクにおける拡散モデルの成功を目撃している。
先行研究は、明示的なマスクガイダンスと意味認識のインペインティングを用いて、人間指向の消去において顕著な進歩を遂げた。
しかし、人間と人間の介在物、人間と物体の絡み合い、背景の干渉を含む複雑なマルチIPシナリオで苦労する。
これらの課題は主に次のとおりである。
1)データセットの制限は、既存のデータセットが密接な閉塞、偽装された背景、多様な相互作用をほとんどカバーしていないためである。
2) 前景のインスタンスを効果的に切り離すことができない空間的疎結合の欠如により,クリーンな背景修復が制限される。
本研究では,多彩なポーズのバリエーションと複雑な背景を持つ高品質なマルチIPヒューマン消去データセットを提案する。
次に、各インスタンスと背景に対して意味的に分離された経路に生成を分解する新しい戦略であるMulti-Layer Diffusion (MILD)を提案する。
人間中心の理解を深めるために、ポーズ、パーシング、空間関係を統合したヒューマン・モルフォロジー・ガイダンスを導入する。
さらに、注意の流れをより良く導くために、空間的に変化した注意を提示する。
大規模な実験により、MILDはヒトの根絶に挑戦するベンチマークにおいて最先端の手法より優れていることが示された。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - DMAT: A Dynamic Mask-Aware Transformer for Human De-occlusion [5.901982216097867]
人間の非閉塞性は、隠蔽された画像から見えない人間の部分の外観を推測することを目的としている。
本稿では,人間領域からの情報を動的に拡張する動的マスク認識変換器(DMAT)を提案する。
AHPデータセットの実験は、最近の最先端手法と比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-02-07T03:36:41Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [51.75784816929666]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。