論文の概要: EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
- arxiv url: http://arxiv.org/abs/2405.00574v1
- Date: Wed, 1 May 2024 15:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:17:48.058326
- Title: EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
- Title(参考訳): EALD-MLLM:マルチモーダル大言語モデルを用いた時系列・非同一性ビデオの感情分析
- Authors: Deng Li, Xin Liu, Bohao Xing, Baiqiang Xia, Yuan Zong, Bihan Wen, Heikki Kälviäinen,
- Abstract要約: EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
- 参考スコア(独自算出の注目度): 22.292581935835678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion AI is the ability of computers to understand human emotional states. Existing works have achieved promising progress, but two limitations remain to be solved: 1) Previous studies have been more focused on short sequential video emotion analysis while overlooking long sequential video. However, the emotions in short sequential videos only reflect instantaneous emotions, which may be deliberately guided or hidden. In contrast, long sequential videos can reveal authentic emotions; 2) Previous studies commonly utilize various signals such as facial, speech, and even sensitive biological signals (e.g., electrocardiogram). However, due to the increasing demand for privacy, developing Emotion AI without relying on sensitive signals is becoming important. To address the aforementioned limitations, in this paper, we construct a dataset for Emotion Analysis in Long-sequential and De-identity videos called EALD by collecting and processing the sequences of athletes' post-match interviews. In addition to providing annotations of the overall emotional state of each video, we also provide the Non-Facial Body Language (NFBL) annotations for each player. NFBL is an inner-driven emotional expression and can serve as an identity-free clue to understanding the emotional state. Moreover, we provide a simple but effective baseline for further research. More precisely, we evaluate the Multimodal Large Language Models (MLLMs) with de-identification signals (e.g., visual, speech, and NFBLs) to perform emotion analysis. Our experimental results demonstrate that: 1) MLLMs can achieve comparable, even better performance than the supervised single-modal models, even in a zero-shot scenario; 2) NFBL is an important cue in long sequential emotion analysis. EALD will be available on the open-source platform.
- Abstract(参考訳): 感情AIはコンピュータが人間の感情状態を理解する能力である。
既存の作業は有望な進歩を遂げたが、2つの制限は未解決のままである。
1) 従来の研究は、長い連続映像を見下ろしながら、短い連続映像の感情分析に重点を置いてきた。
しかし、短い連続したビデオの感情は、意図的に誘導されたり隠されたりする瞬間的な感情のみを反映する。
対照的に、長いシーケンシャルなビデオは、本物の感情を明らかにします。
2) 従来の研究では, 顔, 音声, さらには敏感な生体信号(心電図, 心電図など)など, 様々な信号が用いられている。
しかし、プライバシーの需要が高まっているため、センシティブな信号に頼ることなくEmotion AIを開発することが重要になっている。
本稿では、上記の制限に対処するため、アスリートのポストマッチインタビューのシーケンスを収集・処理し、EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
各動画の感情状態のアノテーションに加えて、各プレイヤーにNFBLアノテーションも提供する。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
さらに,さらなる研究のためには,シンプルだが効果的なベースラインを提供する。
より正確には、感情分析を行うために、非識別信号(例えば、視覚、音声、NFBL)を用いてMLLM(Multimodal Large Language Models)を評価する。
我々の実験結果は以下のとおりである。
1)MLLMは、ゼロショットシナリオであっても、教師付きシングルモーダルモデルよりも同等、さらに優れたパフォーマンスを達成することができる。
2)NFBLは長期的感情分析において重要な手がかりである。
EALDはオープンソースプラットフォームで利用可能になる。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。