論文の概要: Correspondence of high-dimensional emotion structures elicited by video clips between humans and Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.12746v1
- Date: Mon, 19 May 2025 06:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.434227
- Title: Correspondence of high-dimensional emotion structures elicited by video clips between humans and Multimodal LLMs
- Title(参考訳): ヒトとマルチモーダルLDMのビデオクリップによる高次元感情構造の対応
- Authors: Haruka Asanuma, Naoko Koide-Majima, Ken Nakamura, Takato Horii, Shinji Nishimoto, Masafumi Oizumi,
- Abstract要約: 近年の研究では、人間の感情は高次元の複雑な構造を示すことが明らかになっている。
本稿では,MLLM(Multimodal Large Language Models)がこれらの複雑な感情をいかに捉えているかを検討した。
以上の結果から,現在最先端のMLLMは,カテゴリレベルでの複雑な高次元感情構造を広く捉えていることが示唆された。
- 参考スコア(独自算出の注目度): 1.0115700348026253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have revealed that human emotions exhibit a high-dimensional, complex structure. A full capturing of this complexity requires new approaches, as conventional models that disregard high dimensionality risk overlooking key nuances of human emotions. Here, we examined the extent to which the latest generation of rapidly evolving Multimodal Large Language Models (MLLMs) capture these high-dimensional, intricate emotion structures, including capabilities and limitations. Specifically, we compared self-reported emotion ratings from participants watching videos with model-generated estimates (e.g., Gemini or GPT). We evaluated performance not only at the individual video level but also from emotion structures that account for inter-video relationships. At the level of simple correlation between emotion structures, our results demonstrated strong similarity between human and model-inferred emotion structures. To further explore whether the similarity between humans and models is at the signle item level or the coarse-categorical level, we applied Gromov Wasserstein Optimal Transport. We found that although performance was not necessarily high at the strict, single-item level, performance across video categories that elicit similar emotions was substantial, indicating that the model could infer human emotional experiences at the category level. Our results suggest that current state-of-the-art MLLMs broadly capture the complex high-dimensional emotion structures at the category level, as well as their apparent limitations in accurately capturing entire structures at the single-item level.
- Abstract(参考訳): 近年の研究では、人間の感情は高次元の複雑な構造を示すことが明らかになっている。
この複雑さをフルに把握するには、人間の感情の重要なニュアンスを見下ろす高次元リスクを無視する従来のモデルのような、新しいアプローチが必要である。
本稿では,近年急速に進化しているマルチモーダル大言語モデル(MLLM)が,これらの高次元の複雑な感情構造(能力や限界など)をいかに捉えているかを検討した。
具体的には,ビデオ視聴者の自己報告感情評価とモデル生成推定値(例えば,Gemini,GPT)を比較した。
我々は,個々の映像レベルだけでなく,映像間の関係を考慮に入れた感情構造も評価した。
感情構造とモデル推論された感情構造との間には,単純な相関関係がみられた。
さらに,人間とモデルとの類似性は,手話の項目レベルか粗いカテゴリーレベルかについて検討するため,Gromov Wasserstein Optimal Transportを適用した。
厳密なシングルイムレベルでは必ずしもパフォーマンスが高かったわけではないが、類似した感情を誘発するビデオカテゴリー間でのパフォーマンスは相当なものであり、モデルがカテゴリーレベルで人間の感情体験を推測できることが示唆された。
以上の結果から,現在最先端のMLLMは,複雑な高次元感情構造をカテゴリーレベルで捉えるとともに,全体構造を正確に把握する上での限界を広く捉えていることが示唆された。
関連論文リスト
- Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding [24.884935271771624]
Emotion-Qwenは、感情理解と一般的な視覚言語推論の両方を強化するために設計されたフレームワークである。
Emotion-Qwenは、Mixture of Experts (MoE)パラダイムに基づいた洗練されたハイブリッドを組み込んでいる。
ビデオ感情推論(VER)データセットを構築し,40万本以上のバイリンガルビデオクリップと詳細な記述的アノテーションを用いて,感情・クウェンの感情推論能力をさらに強化する。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Exploring Emotions in Multi-componential Space using Interactive VR Games [1.1510009152620668]
インタラクティブバーチャルリアリティ(VR)ゲームを用いたデータ駆動型アプローチを運用した。
機械学習(ML)手法を用いて、各コンポーネントの感情分化に対するユニークな貢献を識別した。
これらの知見は、感情研究におけるVR環境の利用にも影響する。
論文 参考訳(メタデータ) (2024-04-04T06:54:44Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。