論文の概要: EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
- arxiv url: http://arxiv.org/abs/2511.11002v1
- Date: Fri, 14 Nov 2025 06:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.456564
- Title: EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
- Title(参考訳): EmoVid:感情中心のビデオ理解と生成のためのマルチモーダル感情ビデオデータセット
- Authors: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang,
- Abstract要約: EmoVidは、クリエイティブメディア向けに設計された、最初のマルチモーダルな感情アノテーション付きビデオデータセットである。
視覚的特徴と感情的知覚を関連付ける空間的パターンと時間的パターンを明らかにする。
We developed a emotion-conditioned video generation technique by fine-tuning the Wan2.1 model。
- 参考スコア(独自算出の注目度): 9.502538906407098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.
- Abstract(参考訳): 感情は映像ベースの表現において重要な役割を担っているが、既存のビデオ生成システムは感情的な次元を無視しながら、主に低レベルな視覚メトリクスに焦点を当てている。
感情分析は視覚領域において進歩してきたが、ビデオコミュニティは、特にスタイル化された非現実的な文脈において、感情理解を生成的タスクでブリッジする専用のリソースを欠いている。
EmoVidは、アニメアニメーション、映画クリップ、アニメーションステッカーを含むクリエイティブメディア向けに設計された、最初のマルチモーダルで感情を付加したビデオデータセットである。
各ビデオには感情ラベル、視覚的属性(明るさ、カラフルな色合い、色合い)、テキストキャプションが付加されている。
組織的分析により,視覚的特徴と感情的知覚を関連付ける空間的パターンと時間的パターンを明らかにする。
これらの知見に基づいて,Wan2.1モデルを微調整した感情調和型映像生成技術を開発した。
その結果,テキスト・ツー・ビデオ・タスクと画像・ビデオ・タスクの定量化と映像品質の両面で有意な改善が認められた。
EmoVidは、感情的なビデオコンピューティングのための新しいベンチマークを確立している。
我々の研究は、芸術的スタイルの動画における視覚的感情分析に関する貴重な洞察を提供するだけでなく、映像生成における感情表現を強化するための実践的な方法も提供する。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - Saliency-guided Emotion Modeling: Predicting Viewer Reactions from Video Stimuli [0.0]
本稿では,2つの重要な特徴を抽出し,感情予測のための新しい唾液量に基づくアプローチを提案する。
HD2SサリエンシモデルとOpenFace顔動作単位分析を用いて,映像のサリエンシと視聴者の感情の関係について検討した。
論文 参考訳(メタデータ) (2025-05-25T14:52:36Z) - SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities [0.7510165488300369]
本稿では,検索・理解モダリティ(SPECTRUM)フレームワークを用いたセマンティック・プロセッシングと感情インフォームド・ビデオキャプションを提案する。
SPECTRUMは、VTAI(Visual Text Attribute Investigation)を用いてマルチモーダルなセマンティクスと感情的なテーマを特定し、記述的キャプションの向きを決定する。
ビデオ・トゥ・テキスト検索機能とビデオコンテンツの多面的特性を利用して、候補キャプションの感情的確率を推定する。
論文 参考訳(メタデータ) (2024-11-04T10:51:47Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。