論文の概要: Facial Affective Behavior Analysis with Instruction Tuning
- arxiv url: http://arxiv.org/abs/2404.05052v1
- Date: Sun, 7 Apr 2024 19:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:02:57.646767
- Title: Facial Affective Behavior Analysis with Instruction Tuning
- Title(参考訳): インストラクションチューニングによる顔の感情行動解析
- Authors: Yifan Li, Anh Dao, Wentao Bao, Zhen Tan, Tianlong Chen, Huan Liu, Yu Kong,
- Abstract要約: 顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
従来のアプローチでは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
本稿では,2つのFABAタスクに対する指示追従データセット,感情と行動の単位認識,および認識能力と生成能力の両方を考慮したベンチマークFABA-Benchを紹介する。
また,顔構造知識と低ランク適応モジュールを事前学習MLLMに導入した。
- 参考スコア(独自算出の注目度): 58.332959295770614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial affective behavior analysis (FABA) is crucial for understanding human mental states from images. However, traditional approaches primarily deploy models to discriminate among discrete emotion categories, and lack the fine granularity and reasoning capability for complex facial behaviors. The advent of Multi-modal Large Language Models (MLLMs) has been proven successful in general visual understanding tasks. However, directly harnessing MLLMs for FABA is challenging due to the scarcity of datasets and benchmarks, neglecting facial prior knowledge, and low training efficiency. To address these challenges, we introduce (i) an instruction-following dataset for two FABA tasks, e.g., emotion and action unit recognition, (ii) a benchmark FABA-Bench with a new metric considering both recognition and generation ability, and (iii) a new MLLM "EmoLA" as a strong baseline to the community. Our initiative on the dataset and benchmarks reveal the nature and rationale of facial affective behaviors, i.e., fine-grained facial movement, interpretability, and reasoning. Moreover, to build an effective and efficient FABA MLLM, we introduce a facial prior expert module with face structure knowledge and a low-rank adaptation module into pre-trained MLLM. We conduct extensive experiments on FABA-Bench and four commonly-used FABA datasets. The results demonstrate that the proposed facial prior expert can boost the performance and EmoLA achieves the best results on our FABA-Bench. On commonly-used FABA datasets, EmoLA is competitive rivaling task-specific state-of-the-art models.
- Abstract(参考訳): 顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
しかし、従来のアプローチは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
MLLM(Multi-modal Large Language Models)の出現は、一般的な視覚的理解タスクにおいて成功している。
しかし、データセットやベンチマークの不足、顔の事前知識の無視、トレーニング効率の低下など、MLLMを直接FABAに活用することは難しい。
これらの課題に対処するために、私たちは
i)2つのFABAタスクのための指示追従データセット。例えば、感情と行動単位認識。
(ii)認識能力と生成能力の両方を考慮した新しい指標を持つベンチマークFABA-Bench
(三)コミュニティの強力な基盤となる新しいMLLM「エモラ」。
データセットとベンチマークに関する我々のイニシアチブは、顔の感情行動の性質と理性、すなわち、きめ細かい顔の動き、解釈可能性、推論を明らかにする。
さらに,FABA MLLMを効果的かつ効率的に構築するために,顔構造知識と低ランク適応モジュールを事前訓練したMLLMに導入する。
FABA-Benchと4つの一般的なFABAデータセットについて広範な実験を行った。
以上の結果から,提案した顔前エキスパートはパフォーマンスを向上し,EmoLAはFABA-Benchで最高の結果を得ることができた。
一般的に使用されるFABAデータセットでは、EmoLAはタスク固有の最先端モデルと競合する。
関連論文リスト
- Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - EMO-LLaMA: Enhancing Facial Emotion Understanding with Instruction Tuning [27.790079451103065]
EMO-LLaMAと呼ばれる新しいMLLMを提案する。これは、事前訓練された顔分析ネットワークからの顔の事前情報を組み込んで、人間の顔情報を強化する。
EMO-LLaMAは、静的および動的FERデータセット間でSOTA互換または競合的な結果を達成する。
論文 参考訳(メタデータ) (2024-08-21T08:28:40Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。
我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。
本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文 参考訳(メタデータ) (2023-05-25T04:05:08Z) - Continual Facial Expression Recognition: A Benchmark [3.181579197770883]
本研究は、FERタスク上でのCL技術の評価を行うConFER(Continuous Facial Expression Recognition)ベンチマークを示す。
これは、CK+、RAF-DB、AffectNetといった一般的なFERデータセットに対するCLベースのアプローチの比較分析である。
CL技術は、異なる学習環境下で、複数のデータセットで最先端(SOTA)パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-05-10T20:35:38Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。