論文の概要: Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning
- arxiv url: http://arxiv.org/abs/2408.00644v1
- Date: Thu, 1 Aug 2024 15:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:16:43.389769
- Title: Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning
- Title(参考訳): 視覚・言語共同学習による説明可能な顔行動単位認識に向けて
- Authors: Xuri Ge, Junchen Fu, Fuhai Chen, Shan An, Nicu Sebe, Joemon M. Jose,
- Abstract要約: 本稿では,AU認識のためのエンドツーエンドのビジョン・ランゲージ共同学習ネットワークを提案する。
提案手法は,ほとんどのメトリクスにおける最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 48.70249675019288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial action units (AUs), as defined in the Facial Action Coding System (FACS), have received significant research interest owing to their diverse range of applications in facial state analysis. Current mainstream FAU recognition models have a notable limitation, i.e., focusing only on the accuracy of AU recognition and overlooking explanations of corresponding AU states. In this paper, we propose an end-to-end Vision-Language joint learning network for explainable FAU recognition (termed VL-FAU), which aims to reinforce AU representation capability and language interpretability through the integration of joint multimodal tasks. Specifically, VL-FAU brings together language models to generate fine-grained local muscle descriptions and distinguishable global face description when optimising FAU recognition. Through this, the global facial representation and its local AU representations will achieve higher distinguishability among different AUs and different subjects. In addition, multi-level AU representation learning is utilised to improve AU individual attention-aware representation capabilities based on multi-scale combined facial stem feature. Extensive experiments on DISFA and BP4D AU datasets show that the proposed approach achieves superior performance over the state-of-the-art methods on most of the metrics. In addition, compared with mainstream FAU recognition methods, VL-FAU can provide local- and global-level interpretability language descriptions with the AUs' predictions.
- Abstract(参考訳): 顔面行動符号化システム (FACS) で定義された顔面行動単位 (AUs) は、顔の状態解析における多種多様な応用により、大きな研究関心を集めている。
現在の主流のFAU認識モデルは、AU認識の精度と対応するAU状態の説明を見渡すことのみに焦点を当てる、顕著な制限がある。
本稿では,統合マルチモーダルタスクの統合によるAU表現能力と言語解釈性の向上を目的とした,説明可能なFAU認識のためのエンドツーエンドの視覚・言語共同学習ネットワーク(VL-FAU)を提案する。
具体的には、VL-FAUは言語モデルを組み合わせて、FAU認識を最適化する際に、きめ細かい局所的な筋の記述と、グローバルな顔の記述を生成する。
これにより、グローバルな顔表現とその局所的なAU表現は、異なるAUと異なる被験者の間でより高い識別性が得られる。
さらに、マルチレベルのAU表現学習を用いて、マルチスケール複合顔幹機能に基づくAU個々の注意認識表現能力を向上させる。
DISFAとBP4D AUデータセットの大規模な実験により、提案手法は、ほとんどのメトリクスにおける最先端の手法よりも優れた性能を実現することが示された。
さらに、主流のFAU認識法と比較して、VL-FAUはAUの予測による局所的およびグローバルレベルの解釈可能性言語記述を提供することができる。
関連論文リスト
- Contrastive Learning of Person-independent Representations for Facial
Action Unit Detection [70.60587475492065]
自己教師型AU表現学習信号を2次元で定式化する。
ビデオクリップ内でAU表現を学習し、個人に依存しない表現を学習するためのクロスアイデンティティ再構築機構を考案する。
提案手法は,他のコントラスト学習手法よりも優れており,自己教師と教師付きAU検出手法間の性能ギャップを著しく短縮する。
論文 参考訳(メタデータ) (2024-03-06T01:49:28Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection [16.261362598190807]
FACS(Facial Action Coding System)は、顔画像中のアクションユニット(AU)を符号化する。
我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報を捉えないかもしれないと論じる。
顔AU検出のためのマルチレベルグラフ推論ネットワーク(MGRR-Net)を提案する。
論文 参考訳(メタデータ) (2022-04-04T09:47:22Z) - Weakly Supervised Regional and Temporal Learning for Facial Action Unit
Recognition [36.350407471391065]
限定アノテーションとモデル性能のギャップを埋めるための補助的AU関連タスクを2つ提案する。
顔の筋肉の動的変化を利用するために,単一画像に基づく光フロー推定タスクを提案する。
半教師付き学習を取り入れることで、弱い教師付き地域学習と時間学習というエンド・ツー・エンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-01T12:02:01Z) - Adaptive Local-Global Relational Network for Facial Action Units
Recognition and Facial Paralysis Estimation [22.85506776477092]
本稿では, 顔認識のための新しい適応局所グラフネットワーク (ALGRNet) を提案し, 顔の麻痺推定に応用する。
ALGRNetは3つの新しい構造、すなわち、検出されたランドマークに基づいて適応的な筋肉領域を学習する適応的な領域学習モジュールで構成されている。
BP4データセットとdisFA AUデータセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-03-03T16:14:49Z) - Multi-Level Adaptive Region of Interest and Graph Learning for Facial
Action Unit Recognition [30.129452080084224]
本稿では,この問題に対処するための多段階適応ROIとグラフ学習(MARGL)フレームワークを提案する。
レベル内AU関係とレベル間AU地域関連を同時に組み込むために、マルチレベルAU関係グラフを構築する。
BP4D と DISFA の実験では,提案した MARGL が従来の最先端手法よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2021-02-24T09:22:45Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。