論文の概要: DisFaceRep: Representation Disentanglement for Co-occurring Facial Components in Weakly Supervised Face Parsing
- arxiv url: http://arxiv.org/abs/2508.01250v1
- Date: Sat, 02 Aug 2025 08:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.785914
- Title: DisFaceRep: Representation Disentanglement for Co-occurring Facial Components in Weakly Supervised Face Parsing
- Title(参考訳): DisFaceRep: 弱監視顔解析における顔成分の同時生成のための表現ディスタングル
- Authors: Xiaoqin Wang, Xianxu Hou, Meidan Ding, Junliang Chen, Kaijun Deng, Jinheng Xie, Linlin Shen,
- Abstract要約: Weakly Supervised Face Parsing (WSFP)を提案する。
WSFPは、顔コンポーネントの高い共起と視覚的類似性のために、ユニークな課題を導入している。
顔成分の分離を目的とした表現不整合フレームワークであるDisFaceRepを提案する。
- 参考スコア(独自算出の注目度): 40.41814863928577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face parsing aims to segment facial images into key components such as eyes, lips, and eyebrows. While existing methods rely on dense pixel-level annotations, such annotations are expensive and labor-intensive to obtain. To reduce annotation cost, we introduce Weakly Supervised Face Parsing (WSFP), a new task setting that performs dense facial component segmentation using only weak supervision, such as image-level labels and natural language descriptions. WSFP introduces unique challenges due to the high co-occurrence and visual similarity of facial components, which lead to ambiguous activations and degraded parsing performance. To address this, we propose DisFaceRep, a representation disentanglement framework designed to separate co-occurring facial components through both explicit and implicit mechanisms. Specifically, we introduce a co-occurring component disentanglement strategy to explicitly reduce dataset-level bias, and a text-guided component disentanglement loss to guide component separation using language supervision implicitly. Extensive experiments on CelebAMask-HQ, LaPa, and Helen demonstrate the difficulty of WSFP and the effectiveness of DisFaceRep, which significantly outperforms existing weakly supervised semantic segmentation methods. The code will be released at \href{https://github.com/CVI-SZU/DisFaceRep}{\textcolor{cyan}{https://github.com/CVI-SZU/DisFaceRep}}.
- Abstract(参考訳): 顔解析は、顔画像を目、唇、まぶたなどの重要な構成要素に分割することを目的としている。
既存の手法は高密度なピクセルレベルのアノテーションに依存しているが、そのようなアノテーションは高価であり、入手には労力がかかる。
Weakly Supervised Face Parsing (WSFP) は,画像レベルラベルや自然言語記述などの弱監督機能のみを用いて,高度な顔成分のセグメンテーションを行うタスクセットである。
WSFPは、顔成分の共起性と視覚的類似性が高く、不明瞭なアクティベーションと解析性能の低下につながるため、ユニークな課題を提起する。
そこで本稿では,顔成分を明示的かつ暗黙的に分離する表現不絡合フレームワークであるDisFaceRepを提案する。
具体的には、データセットレベルのバイアスを明示的に低減するための共起型コンポーネントのアンタングル化戦略と、テキスト誘導型コンポーネントのアンタングル化損失を導入し、暗黙的に言語イントロスペクションを用いてコンポーネント分離を誘導する。
CelebAMask-HQ、LaPa、Helenの大規模な実験は、WSFPの難しさとDisFaceRepの有効性を実証している。
コードは \href{https://github.com/CVI-SZU/DisFaceRep}{\textcolor{cyan}{https://github.com/CVI-SZU/DisFaceRep}} でリリースされる。
関連論文リスト
- Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation [1.4195677954898822]
フェースフィルターはショートフォームビデオコンテンツの重要な要素となり、スタイリゼーションやフェイススワップといった幅広い視覚効果を可能にしている。
そこで我々は, 顔領域から咬合要素を分離するために, 微細なアルファマットを推定する, 顔マッチングの新たな課題を紹介した。
複雑な閉塞下で高品質なアルファマットを予測する,トリマップフリーで不確実性を考慮したフレームワークFaceMatを提案する。
論文 参考訳(メタデータ) (2025-08-05T04:00:14Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Mask Grounding for Referring Image Segmentation [42.69973300692365]
Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
論文 参考訳(メタデータ) (2023-12-19T14:34:36Z) - Improving Face Recognition from Caption Supervision with Multi-Granular
Contextual Feature Aggregation [0.0]
我々は,COTS(Commercial-off-the-Shelf)顔認識システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本稿では,2つの顔認識モデル(ArcFaceとAdaFace)にCGFRフレームワークを実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
論文 参考訳(メタデータ) (2023-08-13T23:52:15Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - IA-FaceS: A Bidirectional Method for Semantic Face Editing [8.19063619210761]
本稿では,顔属性の非交叉操作とフレキシブルかつ制御可能なコンポーネント編集のための双方向手法を提案する。
IA-FaceSは、セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで初めて開発された。
定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-03-24T14:44:56Z) - Reference-guided Face Component Editing [51.29105560090321]
本稿では,多様かつ制御可能な顔コンポーネント編集のためのr-FACE (Reference-guided FAce Component Editing) という新しいフレームワークを提案する。
具体的には、r-FACEは、顔成分の形状を制御する条件として参照画像を利用して、画像の塗装モデルをバックボーンとして利用する。
フレームワークが対象の顔成分に集中するよう促すため、基準画像から抽出した注目特徴と対象の顔成分特徴とを融合させるために、サンプル誘導注意モジュールが設計されている。
論文 参考訳(メタデータ) (2020-06-03T05:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。