論文の概要: PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training
- arxiv url: http://arxiv.org/abs/2508.09691v1
- Date: Wed, 13 Aug 2025 10:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.857858
- Title: PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training
- Title(参考訳): PaCo-FR: 顔表現事前学習のためのパッチPixelアライメントエンド・ツー・エンドのコードブック学習
- Authors: Yin Xie, Zhichao Chen, Xiaoze Yu, Yongle Zhao, Xiang An, Kaicheng Yang, Zimin Ran, Jia Guo, Ziyong Feng, Jiankang Deng,
- Abstract要約: PaCo-FRは、マスク付きイメージモデリングとパッチピクセルアライメントを組み合わせた教師なしのフレームワークである。
PaCo-FRは、事前トレーニング用のラベル付きイメージがわずか200万枚だけで、いくつかの顔分析タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.52750192639004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial representation pre-training is crucial for tasks like facial recognition, expression analysis, and virtual reality. However, existing methods face three key challenges: (1) failing to capture distinct facial features and fine-grained semantics, (2) ignoring the spatial structure inherent to facial anatomy, and (3) inefficiently utilizing limited labeled data. To overcome these, we introduce PaCo-FR, an unsupervised framework that combines masked image modeling with patch-pixel alignment. Our approach integrates three innovative components: (1) a structured masking strategy that preserves spatial coherence by aligning with semantically meaningful facial regions, (2) a novel patch-based codebook that enhances feature discrimination with multiple candidate tokens, and (3) spatial consistency constraints that preserve geometric relationships between facial components. PaCo-FR achieves state-of-the-art performance across several facial analysis tasks with just 2 million unlabeled images for pre-training. Our method demonstrates significant improvements, particularly in scenarios with varying poses, occlusions, and lighting conditions. We believe this work advances facial representation learning and offers a scalable, efficient solution that reduces reliance on expensive annotated datasets, driving more effective facial analysis systems.
- Abstract(参考訳): 顔認識、表情分析、バーチャルリアリティーといったタスクには、顔の事前訓練が不可欠である。
しかし, 既存の手法では, 1) 顔の特徴や微細な意味を捉えていないこと, (2) 顔解剖に固有の空間構造を無視すること, (3) 限られたラベル付きデータを非効率に活用すること,の3つの課題に直面している。
これを解決するために,マスク付き画像モデリングとパッチ・ピクセルアライメントを組み合わせた教師なしフレームワークPaCo-FRを導入する。
提案手法は,(1)意味的に意味のある顔領域と整合して空間的コヒーレンスを保存する構造化マスキング戦略,(2)複数の候補トークンによる特徴識別を強化するパッチベースのコードブック,(3)顔成分間の幾何学的関係を保存する空間的制約の3つを統合する。
PaCo-FRは、事前トレーニング用のラベル付きイメージがわずか200万枚だけで、いくつかの顔分析タスクで最先端のパフォーマンスを達成する。
提案手法は,特にポーズ,オクルージョン,照明条件の異なるシナリオにおいて,顕著な改善を示す。
この作業は顔の表現学習を前進させ、高価な注釈付きデータセットへの依存を減らし、より効果的な顔分析システムを実現するスケーラブルで効率的なソリューションを提供すると信じています。
関連論文リスト
- From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Improving Face Recognition from Caption Supervision with Multi-Granular
Contextual Feature Aggregation [0.0]
我々は,COTS(Commercial-off-the-Shelf)顔認識システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本稿では,2つの顔認識モデル(ArcFaceとAdaFace)にCGFRフレームワークを実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
論文 参考訳(メタデータ) (2023-08-13T23:52:15Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Towards NIR-VIS Masked Face Recognition [47.00916333095693]
近赤外可視(NIR-VIS)顔認識は異種顔認識において最も一般的な症例である。
2つのドメインの顔表現で共有される相互情報を最大化するための新しいトレーニング手法を提案する。
さらに、既存のNIR画像からマスク面を合成するために、3次元顔再構成に基づくアプローチを用いる。
論文 参考訳(メタデータ) (2021-04-14T10:40:09Z) - Learning Oracle Attention for High-fidelity Face Completion [121.72704525675047]
U-Net構造に基づく顔補完のための包括的フレームワークを設計する。
複数のスケールで顔のテクスチャ間の相関関係を効率よく学習する双対空間アテンションモジュールを提案する。
顔成分の位置を事前の知識として捉え,これらの領域に複数識別器を課す。
論文 参考訳(メタデータ) (2020-03-31T01:37:10Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。