論文の概要: StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.00304v1
- Date: Sat, 31 Aug 2024 00:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:46:49.789186
- Title: StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models
- Title(参考訳): StimuVAR:マルチモーダル大言語モデルを用いた時空間刺激対応ビデオアフェクティブ推論
- Authors: Yuxiang Guo, Faizan Siddiqui, Yang Zhao, Rama Chellappa, Shao-Yuan Lo,
- Abstract要約: Video Affective Reasoning(ビデオ影響推論)は、ビデオが人間にどのように感じられるかを予測するためのフレームワークである。
Stimu-MLは多言語モデル(LMLM)を用いたビデオ影響推論(「映像影響推論」)のためのフレームワークである。
Stimu-MLには、フレームレベルの認識とトークンレベルの認識という、2段階の刺激認識機構が組み込まれている。
我々は、ビデオに対する視聴者の感情反応を理解し、一貫性と洞察に富んだ説明を提供する上で、Stimu-MLの優位性を実証する。
- 参考スコア(独自算出の注目度): 39.61402609070949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting and reasoning how a video would make a human feel is crucial for developing socially intelligent systems. Although Multimodal Large Language Models (MLLMs) have shown impressive video understanding capabilities, they tend to focus more on the semantic content of videos, often overlooking emotional stimuli. Hence, most existing MLLMs fall short in estimating viewers' emotional reactions and providing plausible explanations. To address this issue, we propose StimuVAR, a spatiotemporal Stimuli-aware framework for Video Affective Reasoning (VAR) with MLLMs. StimuVAR incorporates a two-level stimuli-aware mechanism: frame-level awareness and token-level awareness. Frame-level awareness involves sampling video frames with events that are most likely to evoke viewers' emotions. Token-level awareness performs tube selection in the token space to make the MLLM concentrate on emotion-triggered spatiotemporal regions. Furthermore, we create VAR instruction data to perform affective training, steering MLLMs' reasoning strengths towards emotional focus and thereby enhancing their affective reasoning ability. To thoroughly assess the effectiveness of VAR, we provide a comprehensive evaluation protocol with extensive metrics. StimuVAR is the first MLLM-based method for viewer-centered VAR. Experiments demonstrate its superiority in understanding viewers' emotional responses to videos and providing coherent and insightful explanations.
- Abstract(参考訳): ビデオの予測と推論は、社会的に知的なシステムを開発する上で不可欠だ。
MLLM(Multimodal Large Language Models)は印象的なビデオ理解能力を示しているが、ビデオの意味的内容に注目する傾向があり、しばしば感情的な刺激を見落としている。
したがって、既存のMLLMのほとんどは、視聴者の感情反応を推定し、妥当な説明を提供するのに不足している。
この問題を解決するために,MLLMを用いたVAR(Video Affective Reasoning)のための時空間Stimuli-awareフレームワークであるStimuVARを提案する。
StimuVARには、フレームレベルの認識とトークンレベルの認識という、2段階の刺激認識機構が組み込まれている。
フレームレベルの認識は、視聴者の感情を誘発する可能性が最も高いイベントでビデオフレームをサンプリングする。
トークン空間において、トークンレベルの認識は、MLLMが感情トリガーされた時空間領域に集中させるためにチューブ選択を行う。
さらに、情緒訓練を行い、情緒的焦点に向けてMLLMの推論強度を操り、感情的推論能力を高めるためにVAR命令データを作成する。
VARの有効性を徹底的に評価するために、広範囲なメトリクスを持つ包括的な評価プロトコルを提供する。
StimuVARは、視聴者中心のVARのためのMLLMベースの最初の方法である。
実験は、視聴者の映像に対する感情的な反応を理解し、一貫性と洞察に富んだ説明を提供することにおいて、その優位性を証明している。
関連論文リスト
- AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [22.99627171182423]
MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。