論文の概要: Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models
- arxiv url: http://arxiv.org/abs/2508.13524v1
- Date: Tue, 19 Aug 2025 05:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.803691
- Title: Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models
- Title(参考訳): 従来のディープラーニングモデルに対する表情認識のためのオープンソース視覚言語モデルの評価
- Authors: Vamsi Krishna Mulukutla, Sai Supriya Pavarala, Srinivasa Raju Rudraraju, Sridevi Bonthu,
- Abstract要約: 顔の感情認識(FER)は、人間とコンピュータの相互作用やメンタルヘルス診断などの応用に不可欠である。
本研究では,オープンソースのビジョン・ランゲージモデル(VLM)と従来のディープラーニングモデルとの実証的な比較を行った。
VLMのトレーニング仮定とFERデータのノイズ特性のミスマッチに対処するために,新しいパイプラインを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Facial Emotion Recognition (FER) is crucial for applications such as human-computer interaction and mental health diagnostics. This study presents the first empirical comparison of open-source Vision-Language Models (VLMs), including Phi-3.5 Vision and CLIP, against traditional deep learning models VGG19, ResNet-50, and EfficientNet-B0 on the challenging FER-2013 dataset, which contains 35,887 low-resolution grayscale images across seven emotion classes. To address the mismatch between VLM training assumptions and the noisy nature of FER data, we introduce a novel pipeline that integrates GFPGAN-based image restoration with FER evaluation. Results show that traditional models, particularly EfficientNet-B0 (86.44%) and ResNet-50 (85.72%), significantly outperform VLMs like CLIP (64.07%) and Phi-3.5 Vision (51.66%), highlighting the limitations of VLMs in low-quality visual tasks. In addition to performance evaluation using precision, recall, F1-score, and accuracy, we provide a detailed computational cost analysis covering preprocessing, training, inference, and evaluation phases, offering practical insights for deployment. This work underscores the need for adapting VLMs to noisy environments and provides a reproducible benchmark for future research in emotion recognition.
- Abstract(参考訳): 顔の感情認識(FER)は、人間とコンピュータの相互作用やメンタルヘルス診断などの応用に不可欠である。
本研究では、従来のディープラーニングモデルであるVGG19、ResNet-50、EfficientNet-B0に対して、Phi-3.5 VisionとCLIPを含むオープンソースのVision-Language Models(VLMs)を初めて比較した。
VLMのトレーニング仮定とFERデータのノイズ特性のミスマッチに対処するために,GFPGANに基づく画像復元とFER評価を統合する新しいパイプラインを導入する。
従来のモデル、特にEfficientNet-B0 (86.44%) と ResNet-50 (85.72%) はCLIP (64.07%) やPhi-3.5 Vision (51.66%) などのVLMよりも優れており、低品質の視覚タスクにおけるVLMの限界を強調している。
精度,リコール,F1スコア,精度を用いた性能評価に加えて,前処理,トレーニング,推論,評価フェーズに関する詳細な計算コスト分析を行い,デプロイの実践的な洞察を提供する。
この研究は、ノイズの多い環境にVLMを適用する必要性を強調し、将来の感情認識研究のための再現可能なベンチマークを提供する。
関連論文リスト
- EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [61.99289768925256]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。
9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。
静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文 参考訳(メタデータ) (2025-06-03T09:18:33Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。