Fugu-MT 論文翻訳(概要): EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model

論文の概要: EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model

arxiv url: http://arxiv.org/abs/2405.00574v1
Date: Wed, 1 May 2024 15:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 15:17:48.058326
Title: EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
Title（参考訳）: EALD-MLLM:マルチモーダル大言語モデルを用いた時系列・非同一性ビデオの感情分析
Authors: Deng Li, Xin Liu, Bohao Xing, Baiqiang Xia, Yuan Zong, Bihan Wen, Heikki Kälviäinen,
Abstract要約: EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。 NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
参考スコア（独自算出の注目度）: 22.292581935835678
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion AI is the ability of computers to understand human emotional states. Existing works have achieved promising progress, but two limitations remain to be solved: 1) Previous studies have been more focused on short sequential video emotion analysis while overlooking long sequential video. However, the emotions in short sequential videos only reflect instantaneous emotions, which may be deliberately guided or hidden. In contrast, long sequential videos can reveal authentic emotions; 2) Previous studies commonly utilize various signals such as facial, speech, and even sensitive biological signals (e.g., electrocardiogram). However, due to the increasing demand for privacy, developing Emotion AI without relying on sensitive signals is becoming important. To address the aforementioned limitations, in this paper, we construct a dataset for Emotion Analysis in Long-sequential and De-identity videos called EALD by collecting and processing the sequences of athletes' post-match interviews. In addition to providing annotations of the overall emotional state of each video, we also provide the Non-Facial Body Language (NFBL) annotations for each player. NFBL is an inner-driven emotional expression and can serve as an identity-free clue to understanding the emotional state. Moreover, we provide a simple but effective baseline for further research. More precisely, we evaluate the Multimodal Large Language Models (MLLMs) with de-identification signals (e.g., visual, speech, and NFBLs) to perform emotion analysis. Our experimental results demonstrate that: 1) MLLMs can achieve comparable, even better performance than the supervised single-modal models, even in a zero-shot scenario; 2) NFBL is an important cue in long sequential emotion analysis. EALD will be available on the open-source platform.
Abstract（参考訳）: 感情AIはコンピュータが人間の感情状態を理解する能力である。既存の作業は有望な進歩を遂げたが、2つの制限は未解決のままである。 1) 従来の研究は、長い連続映像を見下ろしながら、短い連続映像の感情分析に重点を置いてきた。しかし、短い連続したビデオの感情は、意図的に誘導されたり隠されたりする瞬間的な感情のみを反映する。対照的に、長いシーケンシャルなビデオは、本物の感情を明らかにします。 2) 従来の研究では, 顔, 音声, さらには敏感な生体信号(心電図, 心電図など)など, 様々な信号が用いられている。しかし、プライバシーの需要が高まっているため、センシティブな信号に頼ることなくEmotion AIを開発することが重要になっている。本稿では、上記の制限に対処するため、アスリートのポストマッチインタビューのシーケンスを収集・処理し、EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。各動画の感情状態のアノテーションに加えて、各プレイヤーにNFBLアノテーションも提供する。 NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。さらに,さらなる研究のためには,シンプルだが効果的なベースラインを提供する。より正確には、感情分析を行うために、非識別信号(例えば、視覚、音声、NFBL)を用いてMLLM(Multimodal Large Language Models)を評価する。我々の実験結果は以下のとおりである。 1)MLLMは、ゼロショットシナリオであっても、教師付きシングルモーダルモデルよりも同等、さらに優れたパフォーマンスを達成することができる。 2)NFBLは長期的感情分析において重要な手がかりである。 EALDはオープンソースプラットフォームで利用可能になる。

関連論文リスト

AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文参考訳（メタデータ） (2025-04-20T18:49:25Z)
Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-16T12:27:05Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。 22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。 MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文参考訳（メタデータ） (2024-11-18T02:09:48Z)
Generative Emotion Cause Explanation in Multimodal Conversations [22.476961519338474]
本稿では,MECEC(Task-textbfMultimodal Emotion Cause Explanation in Conversation)を紹介する。本課題は,会話のマルチモーダルな文脈に基づいて,感情を誘発する理由を明確かつ直感的に記述した要約を生成することを目的とする。 FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文参考訳（メタデータ） (2024-11-01T09:16:30Z)
AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文参考訳（メタデータ） (2024-09-26T23:25:21Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。 EDENは感情と原因を明確な考え方で認識する。大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文参考訳（メタデータ） (2024-06-07T08:58:29Z)
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。感情は時間的ダイナミクスが非常に多様である。微粒な時間的アノテーションは複雑で、労働集約的です。
論文参考訳（メタデータ） (2022-08-03T10:00:49Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。