論文の概要: VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
- arxiv url: http://arxiv.org/abs/2511.02712v1
- Date: Tue, 04 Nov 2025 16:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.108363
- Title: VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
- Title(参考訳): VidEmo:感情中心のビデオファンデーションモデルのための感情的傾向推論
- Authors: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang,
- Abstract要約: 本稿では,基本的属性認識,表現分析,高レベルの感情理解を統一する感情的手がかり誘導推論フレームワークを提案する。
我々のアプローチの核心は、感情推論と指示追従のために特別に設計されたビデオ感情基盤モデル(VidEmo)のファミリーである。
基礎的なデータ基盤を確立し,210万の多様な命令ベースのサンプルからなる感情中心の微粒化データセットを導入する。
- 参考スコア(独自算出の注目度): 46.591026037722436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
- Abstract(参考訳): 近年,ビデオ大言語モデル(VideoLLMs)の進歩により,映像からの感情の理解と予測が注目されている。
高度な手法は映像の感情分析を進歩させてきたが、感情の本質的な性質は大きな課題を生んでいる。
感情は動的でキューに依存した性質によって特徴づけられ、合理的な理性で複雑な感情状態と進化する感情状態を理解することは困難である。
これらの課題に対処するために,本研究では,基本的な属性認識,表現分析,高レベルの感情理解を段階的に統合する,感情的な手がかり誘導推論フレームワークを提案する。
我々のアプローチの核心は、感情推論と指示追従のために特別に設計されたビデオ感情基盤モデル(VidEmo)のファミリーである。
これらのモデルは、まず、感情知識を注入するためのカリキュラム感情学習と、感情推論のための感情木強化学習という2段階のチューニングプロセスを実行する。
さらに,基礎となるデータ基盤を構築し,210万の多様な命令ベースサンプルからなる感情中心の細粒度データセット(Emo-CFG)を導入する。
Emo-CFGには説明可能な感情的質問答え、きめ細かなキャプション、関連する合理性が含まれており、感情理解タスクを前進させるために必要なリソースを提供する。
実験の結果,提案手法は15の顔認識タスクにまたがる新たなマイルストーンを達成できることが判明した。
関連論文リスト
- Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
芸術的イメージが与えられたモデルでは、特定の人間の感情をトリガーするピクセル領域をピンポイントし、それに対する言語学的説明を生成する。
本稿では,感情理解能力を持つセグメンテーションフレームワークを実現するために,感情刺激・説明モデル(EmoSEM)モデルを提案する。
本手法は,低レベルの画素特徴から高レベルの感情解釈へのエンド・ツー・エンド・モデリングを実現し,視覚的感情分析のための第1の微粒化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。