論文の概要: Discrete Facial Encoding: : A Framework for Data-driven Facial Display Discovery
- arxiv url: http://arxiv.org/abs/2510.01662v1
- Date: Thu, 02 Oct 2025 04:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.991971
- Title: Discrete Facial Encoding: : A Framework for Data-driven Facial Display Discovery
- Title(参考訳): 離散的顔符号化 : データ駆動型顔画像発見のためのフレームワーク
- Authors: Minh Tran, Maksim Siniukov, Zhangyu Jin, Mohammad Soleymani,
- Abstract要約: 本稿では,表情のコンパクトかつ解釈可能な辞書の教師なし,データ駆動型代替手段であるDiscrete Facialを紹介する。
我々のシステムは、FACSベースのパイプラインと強力な画像およびビデオ表現学習モデルの両方を一貫して上回っている。
我々の表現は幅広い種類の顔ディスプレイをカバーしており、心理的および情緒的コンピューティングアプリケーションに対するFACSのスケーラブルで効果的な代替手段としての可能性を強調している。
- 参考スコア(独自算出の注目度): 6.096726247356906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression analysis is central to understanding human behavior, yet existing coding systems such as the Facial Action Coding System (FACS) are constrained by limited coverage and costly manual annotation. In this work, we introduce Discrete Facial Encoding (DFE), an unsupervised, data-driven alternative of compact and interpretable dictionary of facial expressions from 3D mesh sequences learned through a Residual Vector Quantized Variational Autoencoder (RVQ-VAE). Our approach first extracts identity-invariant expression features from images using a 3D Morphable Model (3DMM), effectively disentangling factors such as head pose and facial geometry. We then encode these features using an RVQ-VAE, producing a sequence of discrete tokens from a shared codebook, where each token captures a specific, reusable facial deformation pattern that contributes to the overall expression. Through extensive experiments, we demonstrate that Discrete Facial Encoding captures more precise facial behaviors than FACS and other facial encoding alternatives. We evaluate the utility of our representation across three high-level psychological tasks: stress detection, personality prediction, and depression detection. Using a simple Bag-of-Words model built on top of the learned tokens, our system consistently outperforms both FACS-based pipelines and strong image and video representation learning models such as Masked Autoencoders. Further analysis reveals that our representation covers a wider variety of facial displays, highlighting its potential as a scalable and effective alternative to FACS for psychological and affective computing applications.
- Abstract(参考訳): 顔の表情分析は人間の行動を理解する上で重要であるが、FACS(Facial Action Coding System)のような既存のコーディングシステムは、限られたカバレッジと高価な手作業によるアノテーションによって制約されている。
本研究では,Residual Vector Quantized Variational Autoencoder (RVQ-VAE) を用いて学習した3次元メッシュシーケンスから,表情のコンパクトかつ解釈可能な辞書の非教師付きデータ駆動型代替であるDFEを紹介する。
提案手法はまず3次元形態モデル(3DMM)を用いて画像から同一性不変表現の特徴を抽出し,頭部ポーズや顔形状などの要因を効果的に解消する。
次に、RVQ-VAEを用いてこれらの特徴を符号化し、共有コードブックから離散トークンのシーケンスを生成し、各トークンは、全体的な表現に寄与する特定の再利用可能な顔変形パターンをキャプチャする。
大規模な実験を通して、離散顔符号化はFACSや他の顔符号化方法よりも正確な顔の振る舞いを捉えていることを示した。
我々は、ストレス検出、パーソナリティ予測、抑うつ検出の3つのハイレベルな心理的タスクにおいて、表現の有用性を評価する。
学習トークン上に構築された単純なBag-of-Wordsモデルを用いることで、FACSベースのパイプラインとMasked Autoencodersのような強力な画像およびビデオ表現学習モデルの両方を一貫して上回ります。
さらに分析したところ、我々の表現は幅広い種類の顔ディスプレイをカバーしており、心理的および情緒的コンピューティングアプリケーションに対するFACSのスケーラブルで効果的な代替手段としての可能性を強調している。
関連論文リスト
- PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training [32.52750192639004]
PaCo-FRは、マスク付きイメージモデリングとパッチピクセルアライメントを組み合わせた教師なしのフレームワークである。
PaCo-FRは、事前トレーニング用のラベル付きイメージがわずか200万枚だけで、いくつかの顔分析タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T10:37:41Z) - From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Beyond FACS: Data-driven Facial Expression Dictionaries, with Application to Predicting Autism [3.0274846041592864]
顔面行動符号化システム(FACS)は、顔の行動と精神健康との関係を調べるために多くの研究で用いられている。
30年間にわたる激しい努力にもかかわらず、多くのアクションユニットの検出精度は行動研究に必要なしきい値を下回っていると考えられている。
本稿ではFACSの重要な特性を模倣する新しい符号化方式を提案する。
論文 参考訳(メタデータ) (2025-05-30T15:06:01Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - Unsupervised learning of Data-driven Facial Expression Coding System (DFECS) using keypoint tracking [3.0605062268685868]
コンピュータビジョンベースの顔キーポイントトラッキングを利用して、自動顔符号化システムの教師なし学習を提案する。
結果は、disFAデータセットから推定されるDFECS AUが、テストデータセットの平均的な分散を91.29パーセントまで説明できることを示している。
DFECS AUの87.5パーセントは解釈可能であり、顔面筋運動の方向と一致している。
論文 参考訳(メタデータ) (2024-06-08T10:45:38Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - Coding Facial Expressions with Gabor Wavelets (IVC Special Issue) [0.0]
本稿では,デジタル画像から表情に関する情報を抽出する手法を提案する。
このコードから導かれる類似性空間は、人間の観察者による画像の意味的評価から導かれるものと比較される。
論文 参考訳(メタデータ) (2020-09-13T07:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。