論文の概要: Bidirectional Learning of Facial Action Units and Expressions via Structured Semantic Mapping across Heterogeneous Datasets
- arxiv url: http://arxiv.org/abs/2604.10541v1
- Date: Sun, 12 Apr 2026 09:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.086322
- Title: Bidirectional Learning of Facial Action Units and Expressions via Structured Semantic Mapping across Heterogeneous Datasets
- Title(参考訳): 不均一データセット間の構造的意味マッピングによる顔行動単位と表情の双方向学習
- Authors: Jia Li, Yu Zhang, Yin Chen, Zhenzhen Hu, Yong Li, Richang Hong, Shiguang Shan, Meng Wang,
- Abstract要約: 本研究では,異なるデータ領域下での双方向AU-FE学習のための構造化セマンティックマッピング(SSM)フレームワークを提案する。
SSMは、(1)動的AUとFEビデオから統一された顔表現を学習する共有視覚バックボーン、(2)テキストセマンティックプロトタイプ(TSP)モジュールによるセマンティックメディエーション、(3)顔行動符号化システムから派生した事前知識を組み込んだ動的優先マッピング(DPM)モジュールの3つの主要な構成要素から構成される。
- 参考スコア(独自算出の注目度): 85.74213192818668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial action unit (AU) detection and facial expression (FE) recognition can be jointly viewed as affective facial behavior tasks, representing fine-grained muscular activations and coarse-grained holistic affective states, respectively. Despite their inherent semantic correlation, existing studies predominantly focus on knowledge transfer from AUs to FEs, while bidirectional learning remains insufficiently explored. In practice, this challenge is further compounded by heterogeneous data conditions, where AU and FE datasets differ in annotation paradigms (frame-level vs.\ clip-level), label granularity, and data availability and diversity, hindering effective joint learning. To address these issues, we propose a Structured Semantic Mapping (SSM) framework for bidirectional AU--FE learning under different data domains and heterogeneous supervision. SSM consists of three key components: (1) a shared visual backbone that learns unified facial representations from dynamic AU and FE videos; (2) semantic mediation via a Textual Semantic Prototype (TSP) module, which constructs structured semantic prototypes from fixed textual descriptions augmented with learnable context prompts, serving as supervision signals and cross-task alignment anchors in a shared semantic space; and (3) a Dynamic Prior Mapping (DPM) module that incorporates prior knowledge derived from the Facial Action Coding System and learns a data-driven association matrix in a high-level feature space, enabling explicit and bidirectional knowledge transfer. Extensive experiments on popular AU detection and FE recognition benchmarks show that SSM achieves state-of-the-art performance on both tasks simultaneously, and demonstrate that holistic expression semantics can in turn enhance fine-grained AU learning even across heterogeneous datasets.
- Abstract(参考訳): 顔行動単位(AU)検出と顔表情(FE)認識は、それぞれ、きめ細かい筋肉の活性化と粗い全身的な情動状態を表す、感情的な顔行動タスクとみなすことができる。
それら固有の意味的相関にもかかわらず、既存の研究は主にAUからFEへの知識伝達に焦点を当てているが、双方向学習は十分に研究されていない。
実際には、この課題は、AUとFEデータセットがアノテーションパラダイム(フレームレベル vs. フレームレベル)で異なる異種データ条件によってさらに複雑化されている。
クリップレベル)、ラベルの粒度、データの可用性と多様性、効果的な共同学習を妨げる。
これらの課題に対処するために、異なるデータドメインと異種監視下での双方向AU-FE学習のための構造化意味マッピング(SSM)フレームワークを提案する。
SSMは、動的なAUとFEビデオから統一的な顔表現を学習する共有視覚バックボーン、(2)学習可能なコンテキストプロンプトで拡張された固定されたテキスト記述から構造化されたセマンティックプロトタイプを構築するテキストセマンティックプロトタイプ(TSP)モジュール、(3)顔行動符号化システムから派生した事前知識を組み込んだ動的優先マッピング(DPM)モジュール、そして高レベルな特徴空間におけるデータ駆動関連行列を学習し、明示的および双方向の知識伝達を可能にする。
一般的なAU検出とFE認識ベンチマークに関する大規模な実験により、SSMは両方のタスクで最先端のパフォーマンスを同時に達成し、全体論的表現セマンティクスが不均一なデータセットをまたいだ詳細なAU学習を向上することを示した。
関連論文リスト
- Hierarchical Vision-Language Interaction for Facial Action Unit Detection [44.02409932746335]
階層型視覚言語によるAU理解手法(HiVA)を提案する。
HiVAは、言語に基づく表現学習を強化するために、多様で文脈的にリッチなAU記述を生成するために、大きな言語モデルを採用している。
実験によると、HiVAは最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-16T03:22:05Z) - Fully Differentiable Bidirectional Dual-Task Synergistic Learning for Semi-Supervised 3D Medical Image Segmentation [3.9950415168730107]
半教師付き学習は、ラベルなしデータを活用することにより、画像セグメンテーションのための大きなピクセル単位のラベル付きデータセットの必要性を緩和する。
我々は,4つの重要なSSLコンポーネントをシームレスに統合し,拡張する,完全に微分可能な双方向シナジスティックラーニング(DBiSL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:44:24Z) - Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。