論文の概要: EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2310.16640v1
- Date: Wed, 25 Oct 2023 13:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:33:38.706248
- Title: EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression
Recognition
- Title(参考訳): EmoCLIP:ゼロショット映像表情認識のための視覚言語法
- Authors: Niki Maria Foteinopoulou, Ioannis Patras
- Abstract要約: 本稿では,サンプルレベルのテキスト記述を自然言語の監視に用いる新しい視覚言語モデルを提案する。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
本研究では,メンタルヘルス症状推定の下流課題について,サンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価した。
- 参考スコア(独自算出の注目度): 12.299438189585366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Expression Recognition (FER) is a crucial task in affective computing,
but its conventional focus on the seven basic emotions limits its applicability
to the complex and expanding emotional spectrum. To address the issue of new
and unseen emotions present in dynamic in-the-wild FER, we propose a novel
vision-language model that utilises sample-level text descriptions (i.e.
captions of the context, expressions or emotional cues) as natural language
supervision, aiming to enhance the learning of rich latent representations, for
zero-shot classification. To test this, we evaluate using zero-shot
classification of the model trained on sample-level descriptions on four
popular dynamic FER datasets. Our findings show that this approach yields
significant improvements when compared to baseline methods. Specifically, for
zero-shot video FER, we outperform CLIP by over 10\% in terms of Weighted
Average Recall and 5\% in terms of Unweighted Average Recall on several
datasets. Furthermore, we evaluate the representations obtained from the
network trained using sample-level descriptions on the downstream task of
mental health symptom estimation, achieving performance comparable or superior
to state-of-the-art methods and strong agreement with human experts. Namely, we
achieve a Pearson's Correlation Coefficient of up to 0.85 on schizophrenia
symptom severity estimation, which is comparable to human experts' agreement.
The code is publicly available at: https://github.com/NickyFot/EmoCLIP.
- Abstract(参考訳): 表情認識(FER)は感情コンピューティングにおいて重要な課題であるが、従来の7つの基本的な感情に焦点をあてることで、複雑な感情スペクトルへの適応性が制限される。
そこで本稿では,自然言語指導としてサンプルレベルのテキスト記述(文脈,表情,感情的手がかりのキャプション)を活用し,ゼロショット分類のための豊かな潜在表現の学習を促進することを目的とした,新しい視覚言語モデルを提案する。
これをテストするために,4つの一般的な動的ferデータセットのサンプルレベル記述に基づいてトレーニングされたモデルのゼロショット分類を用いて評価する。
その結果,本手法はベースライン法と比較して有意に改善した。
具体的には、ゼロショットビデオferでは、重み付き平均リコールで10\%、非重み付き平均リコールで5\%のクリップを上回っています。
さらに,メンタルヘルス症状推定の下流課題についてサンプルレベル記述を用いて訓練したネットワークから得られた表現を評価し,最新手法に匹敵する性能を達成し,人間専門家との強い合意を得る。
すなわち、ピアソンの相関係数は、人間の専門家の合意に匹敵する統合失調症症状の重症度推定において最大 0.85 である。
コードはhttps://github.com/NickyFot/EmoCLIPで公開されている。
関連論文リスト
- How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-09-04T09:32:40Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case [11.912581294872767]
文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-04T21:35:01Z) - Modeling Dynamics of Facial Behavior for Mental Health Assessment [4.130361751085622]
自然言語処理における単語表現に使用されるアルゴリズムを用いて,表情の動的表現の可能性を検討する。
顔クラスタの埋め込みを学習するために,Global Vector representation (GloVe)アルゴリズムを適用する前に,5.3Mフレームの時間的表情の大規模なデータセット上でクラスタリングを行う。
統合失調症の症状重症度推定と抑うつ回帰という2つの下流課題における学習表現の有用性を評価した。
論文 参考訳(メタデータ) (2021-08-23T05:08:45Z) - MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。
我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文 参考訳(メタデータ) (2020-11-17T15:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。