論文の概要: S$^3$POT: Contrast-Driven Face Occlusion Segmentation via Self-Supervised Prompt Learning
- arxiv url: http://arxiv.org/abs/2602.00635v1
- Date: Sat, 31 Jan 2026 10:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.304742
- Title: S$^3$POT: Contrast-Driven Face Occlusion Segmentation via Self-Supervised Prompt Learning
- Title(参考訳): S$3$POT: 自己監督型プロンプト学習によるコントラスト駆動型顔オクルージョンセグメンテーション
- Authors: Lingsong Wang, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen,
- Abstract要約: S$3$POTは、自己教師付き空間的プロンプトによる顔生成を相乗化するためのコントラスト駆動型フレームワークである。
特に、S$3$POTは、参照生成、機能拡張、Prompt Selectionの3つのモジュールで構成されている。
専用のデータセットの実験では、S$3$POTの優れたパフォーマンスと各モジュールの有効性が示されている。
- 参考スコア(独自算出の注目度): 46.05577414378133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing face parsing methods usually misclassify occlusions as facial components. This is because occlusion is a high-level concept, it does not refer to a concrete category of object. Thus, constructing a real-world face dataset covering all categories of occlusion object is almost impossible and accurate mask annotation is labor-intensive. To deal with the problems, we present S$^3$POT, a contrast-driven framework synergizing face generation with self-supervised spatial prompting, to achieve occlusion segmentation. The framework is inspired by the insights: 1) Modern face generators' ability to realistically reconstruct occluded regions, creating an image that preserve facial geometry while eliminating occlusion, and 2) Foundation segmentation models' (e.g., SAM) capacity to extract precise mask when provided with appropriate prompts. In particular, S$^3$POT consists of three modules: Reference Generation (RF), Feature enhancement (FE), and Prompt Selection (PS). First, a reference image is produced by RF using structural guidance from parsed mask. Second, FE performs contrast of tokens between raw and reference images to obtain an initial prompt, then modifies image features with the prompt by cross-attention. Third, based on the enhanced features, PS constructs a set of positive and negative prompts and screens them with a self-attention network for a mask decoder. The network is learned under the guidance of three novel and complementary objective functions without occlusion ground truth mask involved. Extensive experiments on a dedicatedly collected dataset demonstrate S$^3$POT's superior performance and the effectiveness of each module.
- Abstract(参考訳): 既存の顔解析法は通常、隠蔽を顔成分と誤分類する。
これは、オクルージョンが高レベルな概念であるためであり、具体的な対象の圏を指すものではないからである。
したがって、隠蔽対象のすべてのカテゴリをカバーする現実世界の顔データセットの構築はほぼ不可能であり、正確なマスクアノテーションは労働集約的である。
これらの問題に対処するため、自己教師付き空間プロンプトによる顔生成を相乗化するためのコントラスト駆動型フレームワークであるS$^3$POTを提案し、オクルージョンセグメンテーションを実現する。
フレームワークは洞察にインスパイアされています。
1)隠蔽領域を現実的に再構築し、隠蔽を排除しつつ顔の形状を保存した画像を作成する現代の顔生成者
2) 適切なプロンプトを付与した場合に、精密マスクを抽出する基礎セグメンテーションモデル(例:SAM)の能力。
特に、S$^3$POTは、参照生成(RF)、特徴拡張(FE)、Prompt Selection(PS)の3つのモジュールで構成される。
まず、解析マスクから構造ガイダンスを用いて、RFにより参照画像を生成する。
第2に、FEは、原画像と参照画像のトークンのコントラストを行い、初期プロンプトを取得し、その後、クロスアテンションによりプロンプトで画像特徴を変更する。
第3に、強化された機能に基づいて、PSは肯定的なプロンプトと否定的なプロンプトのセットを構築し、マスクデコーダ用の自己アテンションネットワークでそれらをスクリーニングする。
ネットワークは、3つの新規かつ補完的な目的関数の指導の下で学習される。
専用に収集されたデータセットに対する大規模な実験は、S$^3$POTの優れた性能と各モジュールの有効性を示す。
関連論文リスト
- GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training [32.52750192639004]
PaCo-FRは、マスク付きイメージモデリングとパッチピクセルアライメントを組み合わせた教師なしのフレームワークである。
PaCo-FRは、事前トレーニング用のラベル付きイメージがわずか200万枚だけで、いくつかの顔分析タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T10:37:41Z) - DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Enforcing View-Consistency in Class-Agnostic 3D Segmentation Fields [46.711276257688326]
Radiance Fieldsは、複数の画像から3Dシーンをモデリングするための強力なツールになっている。
いくつかの手法は2Dセマンティックマスクを用いてうまく機能するが、クラスに依存しないセグメンテーションにはあまり一般化しない。
より最近の手法では、コントラスト学習を用いて高次元の3次元特徴場を最適化することでこの問題を回避することができる。
論文 参考訳(メタデータ) (2024-08-19T12:07:24Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - SD-GAN: Semantic Decomposition for Face Image Synthesis with Discrete
Attribute [0.0]
本稿では,SD-GANと呼ばれる意味的分解による顔の離散属性合成に挑戦する革新的な枠組みを提案する。
融合ネットワークは、より優れたアイデンティティ保存と離散属性合成のために3D埋め込みを統合する。
既存のデータセットにおける離散属性の欠如を解消するための,大規模で価値のあるデータセットMEGNを構築した。
論文 参考訳(メタデータ) (2022-07-12T04:23:38Z) - Segmentation-Reconstruction-Guided Facial Image De-occlusion [48.952656891182826]
隠蔽は野生の顔画像で非常に一般的であり、顔関連タスクの劣化パフォーマンスに繋がる。
本稿では,顔分割と3次元顔再構成に基づく新しい顔除去モデルを提案する。
論文 参考訳(メタデータ) (2021-12-15T10:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。