論文の概要: Depth-Copy-Paste: Multimodal and Depth-Aware Compositing for Robust Face Detection
- arxiv url: http://arxiv.org/abs/2512.11683v1
- Date: Fri, 12 Dec 2025 16:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.835363
- Title: Depth-Copy-Paste: Multimodal and Depth-Aware Compositing for Robust Face Detection
- Title(参考訳): Depth-Copy-Paste:ロバスト顔検出のためのマルチモーダル・Depth-Aware Compositing
- Authors: Qiushi Guo,
- Abstract要約: Depth Copy Pasteは、顔検出トレーニングのためのマルチモーダルで奥行きを認識した拡張フレームワークである。
全身の人物のインスタンスをコピーし、それらを意味的に互換性のあるシーンに貼り付けることで、多様で物理的に一貫した顔検出トレーニングサンプルを生成する。
提案手法ではまずBLIPとCLIPを用いてセマンティックと視覚的コヒーレンスを共同で評価し,最も適した背景画像の自動検索を可能にする。
幾何学的リアリズムにおいては,背景深度マップを探索し,最適深度連続性とスケールアライメントを有するペースト位置を同定する深度案内型スライドウィンドウ配置機構を導入する。
- 参考スコア(独自算出の注目度): 2.0813318162800702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is crucial for improving the robustness of face detection systems, especially under challenging conditions such as occlusion, illumination variation, and complex environments. Traditional copy paste augmentation often produces unrealistic composites due to inaccurate foreground extraction, inconsistent scene geometry, and mismatched background semantics. To address these limitations, we propose Depth Copy Paste, a multimodal and depth aware augmentation framework that generates diverse and physically consistent face detection training samples by copying full body person instances and pasting them into semantically compatible scenes. Our approach first employs BLIP and CLIP to jointly assess semantic and visual coherence, enabling automatic retrieval of the most suitable background images for the given foreground person. To ensure high quality foreground masks that preserve facial details, we integrate SAM3 for precise segmentation and Depth-Anything to extract only the non occluded visible person regions, preventing corrupted facial textures from being used in augmentation. For geometric realism, we introduce a depth guided sliding window placement mechanism that searches over the background depth map to identify paste locations with optimal depth continuity and scale alignment. The resulting composites exhibit natural depth relationships and improved visual plausibility. Extensive experiments show that Depth Copy Paste provides more diverse and realistic training data, leading to significant performance improvements in downstream face detection tasks compared with traditional copy paste and depth free augmentation methods.
- Abstract(参考訳): データ拡張は顔検出システムの堅牢性を改善するために重要であり、特に閉塞、照明の変動、複雑な環境といった困難な条件下では。
伝統的なコピーペースト拡張は、不正確な前景の抽出、不整合のシーン幾何学、ミスマッチした背景意味論のために、しばしば非現実的な合成を生成する。
これらの制約に対処するため,Depth Copy Pasteを提案する。Depth Copy Pasteは多様かつ深度に意識された拡張フレームワークで,全身の人物のインスタンスをコピーして意味的に互換性のあるシーンに貼り付けることで,多様で物理的に一貫した顔検出トレーニングサンプルを生成する。
提案手法はまずBLIPとCLIPを用いて意味的・視覚的コヒーレンスを共同で評価し,各前景者に適した背景画像の自動検索を可能にする。
顔の細部を正確にセグメンテーションするためにSAM3とDepth-Anythingを統合し,非閉塞の可視領域のみを抽出し,劣化した顔のテクスチャが強化に使用されるのを防ぐ。
幾何学的リアリズムにおいては,背景深度マップを探索し,最適深度連続性とスケールアライメントを有するペースト位置を同定する深度案内型スライドウィンドウ配置機構を導入する。
結果として得られる合成物は自然の深度関係を示し、視覚的可視性を改善した。
大規模な実験により、Depth Copy Pasteはより多彩でリアルなトレーニングデータを提供し、従来のコピーペーストやディープフリー拡張手法と比較して、下流の顔検出タスクにおいて大幅なパフォーマンス向上をもたらすことが示されている。
関連論文リスト
- Training Self-Supervised Depth Completion Using Sparse Measurements and a Single Image [2.3874115898130865]
本稿では,スパース深度測定とそれに対応する画像のみを必要とする,自己監督型深度補完パラダイムを提案する。
深度分布の特性を利用して,観測点から未観測領域への深度情報を効果的に伝播する新規な損失関数を設計する。
論文 参考訳(メタデータ) (2025-07-20T07:24:09Z) - Exploring Depth Information for Detecting Manipulated Face Videos [36.36293334402051]
顔深度マップは、顔認識や顔検出などの他の分野で有効であることが示されている。
RGB顔画像からのパッチにより顔深度マップパッチを推定するための顔深度マップ変換器(FDMT)を提案する。
次に、推定された顔深度マップを、バックボーンの特徴と統合される補助情報とみなす。
論文 参考訳(メタデータ) (2024-11-27T18:16:11Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。
ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。
マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文 参考訳(メタデータ) (2023-08-03T03:37:13Z) - Exploring Depth Information for Face Manipulation Detection [25.01910127502075]
RGB顔画像からのパッチにより顔深度マップパッチを推定するための顔深度マップ変換器(FDMT)を提案する。
次に、推定された顔深度マップを、バックボーンの特徴と統合される補助情報とみなす。
論文 参考訳(メタデータ) (2022-12-29T09:00:22Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z) - Deep Learning-based Single Image Face Depth Data Enhancement [15.41435352543715]
本研究は,この文脈における深層学習顔深度向上手法を提案する。
ディープラーニングエンハンサーは、テスト済みの既存のエンハンサーよりも顕著に優れた結果が得られる。
論文 参考訳(メタデータ) (2020-06-19T11:52:38Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。