論文の概要: EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2310.16640v2
- Date: Mon, 18 Mar 2024 09:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:22:50.604648
- Title: EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition
- Title(参考訳): EmoCLIP:ゼロショット映像表情認識のための視覚言語法
- Authors: Niki Maria Foteinopoulou, Ioannis Patras,
- Abstract要約: 本稿では,サンプルレベルのテキスト記述を自然言語の監視に用いる新しい視覚言語モデルを提案する。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
本研究では,メンタルヘルス症状推定の下流課題について,サンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価した。
- 参考スコア(独自算出の注目度): 10.411186945517148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Expression Recognition (FER) is a crucial task in affective computing, but its conventional focus on the seven basic emotions limits its applicability to the complex and expanding emotional spectrum. To address the issue of new and unseen emotions present in dynamic in-the-wild FER, we propose a novel vision-language model that utilises sample-level text descriptions (i.e. captions of the context, expressions or emotional cues) as natural language supervision, aiming to enhance the learning of rich latent representations, for zero-shot classification. To test this, we evaluate using zero-shot classification of the model trained on sample-level descriptions on four popular dynamic FER datasets. Our findings show that this approach yields significant improvements when compared to baseline methods. Specifically, for zero-shot video FER, we outperform CLIP by over 10\% in terms of Weighted Average Recall and 5\% in terms of Unweighted Average Recall on several datasets. Furthermore, we evaluate the representations obtained from the network trained using sample-level descriptions on the downstream task of mental health symptom estimation, achieving performance comparable or superior to state-of-the-art methods and strong agreement with human experts. Namely, we achieve a Pearson's Correlation Coefficient of up to 0.85 on schizophrenia symptom severity estimation, which is comparable to human experts' agreement. The code is publicly available at: https://github.com/NickyFot/EmoCLIP.
- Abstract(参考訳): 表情認識(FER)は感情コンピューティングにおいて重要な課題であるが、従来の7つの基本的な感情に焦点をあてることで、複雑な感情スペクトルへの適応性が制限される。
動的インザワイルドFERに存在する新しい、目に見えない感情の問題に対処するため、ゼロショット分類のためのリッチな潜在表現の学習を促進することを目的とした、サンプルレベルのテキスト記述(文脈、表現、感情的手がかりのキャプション)を自然言語の監督として活用する新しい視覚言語モデルを提案する。
これをテストするために,4つの人気のある動的FERデータセットのサンプルレベル記述に基づいて訓練されたモデルのゼロショット分類を用いて評価を行った。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
具体的には、ゼロショットビデオFERでは、重み付き平均リコールでCLIPを10倍、重み付き平均リコールで5倍以上上回ります。
さらに、メンタルヘルスの症状推定の下流課題に関するサンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価し、最先端の手法に匹敵する性能、人間専門家との強い合意を達成した。
すなわち、統合失調症症状の重症度推定において、Pearsonの相関係数を最大0.85まで達成し、これは人間の専門家の合意に匹敵するものである。
コードはhttps://github.com/NickyFot/EmoCLIPで公開されている。
関連論文リスト
- How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-09-04T09:32:40Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case [11.912581294872767]
文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-04T21:35:01Z) - Modeling Dynamics of Facial Behavior for Mental Health Assessment [4.130361751085622]
自然言語処理における単語表現に使用されるアルゴリズムを用いて,表情の動的表現の可能性を検討する。
顔クラスタの埋め込みを学習するために,Global Vector representation (GloVe)アルゴリズムを適用する前に,5.3Mフレームの時間的表情の大規模なデータセット上でクラスタリングを行う。
統合失調症の症状重症度推定と抑うつ回帰という2つの下流課題における学習表現の有用性を評価した。
論文 参考訳(メタデータ) (2021-08-23T05:08:45Z) - MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。
我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文 参考訳(メタデータ) (2020-11-17T15:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。