論文の概要: Point-Supervised Facial Expression Spotting with Gaussian-Based Instance-Adaptive Intensity Modeling
- arxiv url: http://arxiv.org/abs/2511.16952v2
- Date: Wed, 26 Nov 2025 06:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.315645
- Title: Point-Supervised Facial Expression Spotting with Gaussian-Based Instance-Adaptive Intensity Modeling
- Title(参考訳): ガウス型インスタンス適応インテンシティモデリングを用いた点強調顔表情スポッティング
- Authors: Yicheng Deng, Hideaki Hayashi, Hajime Nagahara,
- Abstract要約: P-FES (point-supervised facial expression spotting) のための2分岐フレームワークを提案する。
まず、ハード擬似ラベルの制限を軽減するために、ガウス型インスタンス適応強度モデリング(GIM)モジュールを提案する。
第2に,擬似アペックスフレームのみに基づいて,マクロ表現とマイクロ表現を区別するクラス認識の頂点分類分岐を設計する。
- 参考スコア(独自算出の注目度): 18.418576406317538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic facial expression spotting, which aims to identify facial expression instances in untrimmed videos, is crucial for facial expression analysis. Existing methods primarily focus on fully-supervised learning and rely on costly, time-consuming temporal boundary annotations. In this paper, we investigate point-supervised facial expression spotting (P-FES), where only a single timestamp annotation per instance is required for training. We propose a unique two-branch framework for P-FES. First, to mitigate the limitation of hard pseudo-labeling, which often confuses neutral and expression frames with various intensities, we propose a Gaussian-based instance-adaptive intensity modeling (GIM) module to model instance-level expression intensity distribution for soft pseudo-labeling. By detecting the pseudo-apex frame around each point label, estimating the duration, and constructing an instance-level Gaussian distribution, GIM assigns soft pseudo-labels to expression frames for more reliable intensity supervision. The GIM module is incorporated into our framework to optimize the class-agnostic expression intensity branch. Second, we design a class-aware apex classification branch that distinguishes macro- and micro-expressions solely based on their pseudo-apex frames. During inference, the two branches work independently: the class-agnostic expression intensity branch generates expression proposals, while the class-aware apex-classification branch is responsible for macro- and micro-expression classification. Furthermore, we introduce an intensity-aware contrastive loss to enhance discriminative feature learning and suppress neutral noise by contrasting neutral frames with expression frames with various intensities. Extensive experiments on the SAMM-LV, CAS(ME)$^2$, and CAS(ME)$^3$ datasets demonstrate the effectiveness of our proposed framework.
- Abstract(参考訳): 非トリミングビデオにおける表情インスタンスの識別を目的とした自動表情スポッティングは、表情分析に不可欠である。
既存の手法は主に教師付き学習に重点を置いており、時間を要する時間的境界アノテーションに頼っている。
本稿では,P-FES(point-supervised facial expression spotting, P-FES)について検討する。
P-FESのためのユニークな2分岐フレームワークを提案する。
まず、中性フレームと表現フレームを様々な強度で混同するハード擬似ラベルの制限を軽減するため、ソフト擬似ラベルのためのインスタンスレベルの表現強度分布をモデル化するためのガウス型インスタンス適応強度モデリング(GIM)モジュールを提案する。
GIMは、各点ラベル周辺の擬似近似フレームを検出し、その期間を推定し、インスタンスレベルのガウス分布を構築することにより、より信頼性の高い強度管理のために、表現フレームにソフトな擬似ラベルを割り当てる。
GIMモジュールは、クラスに依存しない表現強度ブランチを最適化するために、我々のフレームワークに組み込まれている。
第2に,擬似アペックスフレームのみに基づいて,マクロ表現とマイクロ表現を区別するクラス認識の頂点分類分岐を設計する。
クラス非依存的な表現強度ブランチは表現提案を生成するが、クラス非認識の頂点分類ブランチはマクロおよびマイクロ表現分類に責任がある。
さらに、識別的特徴学習を強化し、中性フレームと表現フレームをさまざまな強度で対比することで中性ノイズを抑制するために、強度認識型コントラスト損失を導入する。
SAMM-LV,CAS(ME)$^2$,CAS(ME)$^3$データセットの大規模な実験により,提案フレームワークの有効性が示された。
関連論文リスト
- Robust Dynamic Facial Expression Recognition [6.626374248579249]
本稿では,硬質試料と雑音試料を区別する頑健な手法を提案する。
ビデオの主表現を識別するために、キー表現再サンプリングフレームワークとデュアルストリーム階層ネットワークを提案する。
提案手法は,DFER における現状-Of-The-Art 手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-22T07:48:12Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
半教師付きFERのための表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusing (LEAF)を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - Weak Supervision with Arbitrary Single Frame for Micro- and Macro-expression Spotting [22.04975008531069]
本稿では,各表現を1つのランダムフレーム(すなわち1点)でアノテートする必要がある点レベルの弱教師付き表現スポッティングフレームワークを提案する。
我々は,MPLGがクラス固有の確率,注意スコア,融合特徴,点レベルのラベルを融合することにより,より信頼性の高い擬似ラベルを生成することを示す。
CAS(ME)2、CAS(ME)3、SAMM-LVデータセットの実験は、PWESが最近の完全教師付き手法に匹敵する有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2024-03-21T09:01:21Z) - Weakly-supervised Micro- and Macro-expression Spotting Based on
Multi-level Consistency [22.7160073059238]
ビデオレベルのラベルに基づく弱教師付き表現スポッティング(WES)は、フレームレベルのアノテーションの複雑さを軽減する可能性がある。
マルチ一貫性協調機構を用いた,新しいシンプルな WES フレームワーク MC-WES を提案する。
MC-WESは最先端の完全教師付き手法に匹敵することを示す。
論文 参考訳(メタデータ) (2023-05-04T11:14:47Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video [27.602648102881535]
本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
論文 参考訳(メタデータ) (2020-10-20T21:42:18Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。