論文の概要: Emotion Knowledge Enhancement for Vision Large Language Models: A Self-Verification Approach for High-Quality Emotion Instruction Data Generation
- arxiv url: http://arxiv.org/abs/2505.18168v1
- Date: Wed, 14 May 2025 03:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.420535
- Title: Emotion Knowledge Enhancement for Vision Large Language Models: A Self-Verification Approach for High-Quality Emotion Instruction Data Generation
- Title(参考訳): 視覚大言語モデルに対する感情知識の強化:高品質な感情指導データ生成のための自己検証アプローチ
- Authors: Feifan Wang, Tengfei Song, Minggui He, Chang Su, Zhanglin Wu, Hao Yang, Wenming Zheng, Osamu Yoshie,
- Abstract要約: 本稿では、感情分析のための高品質な指導データを生成するための感情知識強化(SEKE)を用いた自己検証手法を提案する。
このアプローチは、人間の以前の知識をVLLM推論に統合し、三段階の感情記述の間に固有の相関関係が導かれる。
さらに,不確実性を考慮したモンテカルロサンプリング(SV-UAMC)による自己検証戦略を組み込んで,より正確なVLLM予測を効率的に抽出する。
- 参考スコア(独自算出の注目度): 17.94565281111736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial emotion perception in the vision large language model (VLLM) is crucial for achieving natural human-machine interaction. However, creating high-quality annotations for both coarse- and fine-grained facial emotion analysis demands costly expertise. The lack of such high-quality instruction data limits the performance of VLLMs in facial emotion perception. To address this, we propose a self-verification approach with emotion knowledge enhancement (SEKE), which generates high-quality instruction data for multi-grained emotion analysis cost-effectively using closed-source VLLM. This approach integrates prior human knowledge to VLLM inference, guided by the inherent correlations between three grained levels of emotion descriptions, i.e., discrete expression, valence-arousal, and action unit, to reliably generate comprehensive annotations. A self-verification strategy with Uncertainty-Aware Monte Carlo sampling (SV-UAMC) is further embedded to efficiently extract more accurate VLLM predictions, further improving annotation reliability. Consequently, we construct a facial emotion instruction dataset (FEID) containing three comprehensive descriptions, which provides coarse- and fine-grained emotional information for effective model training. Additionally, we introduce a facial emotion analysis benchmark (FEAB) to measure the VLLM's corresponding ability. Our method significantly outperforms state-of-the-art methods on three downstream facial emotion analysis tasks.
- Abstract(参考訳): 視覚大言語モデル(VLLM)における顔の感情知覚は、自然な人間と機械の相互作用の実現に不可欠である。
しかし、粗くきめ細かな顔の感情分析のための高品質なアノテーションを作成するには、高価な専門知識が必要である。
このような高品質な命令データが欠如していることは、顔の感情知覚におけるVLLMの性能を制限している。
そこで本研究では,感情知識強化(SEKE)を用いた自己検証手法を提案する。
このアプローチは、従来の人間の知識をVLLM推論に統合し、三段階の感情記述、すなわち、離散表現、原子価覚醒、アクションユニットの間に固有の相関関係によって導かれ、包括的なアノテーションを確実に生成する。
さらに,不確実性を考慮したモンテカルロサンプリング(SV-UAMC)による自己検証手法を組み込んで,より正確なVLLM予測を効率的に抽出し,信頼性の向上を図る。
その結果,3つの包括的記述を含む顔感情指導データセット(FEID)を構築し,モデルトレーニングを効果的に行うために,粗い感情情報ときめ細かな感情情報を提供する。
さらに、VLLMの対応する能力を測定するために、顔感情分析ベンチマーク(FEAB)を導入する。
本手法は,3つの下流顔の感情分析タスクにおいて,最先端の手法を著しく上回っている。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Facial Affective Behavior Analysis with Instruction Tuning [58.332959295770614]
顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
従来のアプローチでは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
本稿では,2つのFABAタスクに対する指示追従データセット,感情と行動の単位認識,および認識能力と生成能力の両方を考慮したベンチマークFABA-Benchを紹介する。
また,顔構造知識と低ランク適応モジュールを事前学習MLLMに導入した。
論文 参考訳(メタデータ) (2024-04-07T19:23:28Z) - Affective Behaviour Analysis via Integrating Multi-Modal Knowledge [24.74463315135503]
ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。
本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
論文 参考訳(メタデータ) (2024-03-16T06:26:43Z) - EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis [33.0280076936761]
EmoLLMs はオープンソースの命令追従型 LLM の第1シリーズであり,インストラクションデータを用いた各種 LLM の微調整に基づく感情分析を行う。
EmoLLMは、感情分析タスクにおいて、ChatGPTレベルおよびGPT-4レベルの一般化機能を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。