論文の概要: eMotions: A Large-Scale Dataset and Audio-Visual Fusion Network for Emotion Analysis in Short-form Videos
- arxiv url: http://arxiv.org/abs/2508.06902v1
- Date: Sat, 09 Aug 2025 09:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.606494
- Title: eMotions: A Large-Scale Dataset and Audio-Visual Fusion Network for Emotion Analysis in Short-form Videos
- Title(参考訳): eMotions:ショートフォームビデオの感情分析のための大規模データセットとオーディオ-ビジュアルフュージョンネットワーク
- Authors: Xuecheng Wu, Dingkang Yang, Danlei Huang, Xinyi Yin, Yifan Wang, Jia Zhang, Jiayu Nie, Liangyu Fu, Yang Liu, Junxiao Xue, Hadi Amirpour, Wei Zhou,
- Abstract要約: ショートフォームビデオ(SV)は、情報を取得し共有するためのオンラインルーチンの重要な部分になっています。
SVの感情データの可用性が制限されていることから,本研究では,27,996本のビデオからなる大規模データセットであるeMotionsを紹介する。
AV-CANetは,ビデオトランスフォーマを利用して意味的に関連する表現をキャプチャする,エンドツーエンドの音声-視覚融合ネットワークである。
- 参考スコア(独自算出の注目度): 15.533003031406551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-form videos (SVs) have become a vital part of our online routine for acquiring and sharing information. Their multimodal complexity poses new challenges for video analysis, highlighting the need for video emotion analysis (VEA) within the community. Given the limited availability of SVs emotion data, we introduce eMotions, a large-scale dataset consisting of 27,996 videos with full-scale annotations. To ensure quality and reduce subjective bias, we emphasize better personnel allocation and propose a multi-stage annotation procedure. Additionally, we provide the category-balanced and test-oriented variants through targeted sampling to meet diverse needs. While there have been significant studies on videos with clear emotional cues (e.g., facial expressions), analyzing emotions in SVs remains a challenging task. The challenge arises from the broader content diversity, which introduces more distinct semantic gaps and complicates the representations learning of emotion-related features. Furthermore, the prevalence of audio-visual co-expressions in SVs leads to the local biases and collective information gaps caused by the inconsistencies in emotional expressions. To tackle this, we propose AV-CANet, an end-to-end audio-visual fusion network that leverages video transformer to capture semantically relevant representations. We further introduce the Local-Global Fusion Module designed to progressively capture the correlations of audio-visual features. Besides, EP-CE Loss is constructed to globally steer optimizations with tripolar penalties. Extensive experiments across three eMotions-related datasets and four public VEA datasets demonstrate the effectiveness of our proposed AV-CANet, while providing broad insights for future research. Moreover, we conduct ablation studies to examine the critical components of our method. Dataset and code will be made available at Github.
- Abstract(参考訳): ショートフォームビデオ(SV)は、情報を取得し共有するためのオンラインルーチンの重要な部分になっています。
彼らのマルチモーダルな複雑さは、ビデオ分析に新たな課題をもたらし、コミュニティ内のビデオ感情分析(VEA)の必要性を強調している。
SVの感情データの可用性が制限されていることから,本研究では,27,996本のビデオからなる大規模データセットであるeMotionsを紹介する。
品質の確保と主観的偏見の低減を目的として,より優れた人員配置と多段階アノテーション手法を提案する。
さらに、さまざまなニーズを満たすために、ターゲットサンプリングを通じてカテゴリバランスとテスト指向のバリエーションを提供する。
明確な感情的手がかり(例えば表情)を持つビデオでは、重要な研究がなされているが、SVにおける感情の分析は難しい課題である。
この課題は、より明確な意味的ギャップを導入し、感情に関連した特徴の表現学習を複雑化する、幅広い内容の多様性から生じる。
さらに、SVにおける音声と視覚の共表現の頻度は、感情表現の不整合に起因する局所的バイアスと集団的情報ギャップにつながる。
そこで本稿では,ビデオトランスフォーマを利用して意味のある表現をキャプチャする,エンドツーエンドの音声-視覚融合ネットワークであるAV-CANetを提案する。
さらに,音声・視覚的特徴の相関関係を段階的に捉えるために設計されたローカル・グローバル・フュージョン・モジュールについても紹介する。
さらに、EP-CEロスは、トリポーラペナルティを用いた世界規模のステア最適化のために構築されている。
3つのeMotions関連データセットと4つのパブリックVAAデータセットにわたる大規模な実験は、提案したAV-CANetの有効性を示しながら、今後の研究に幅広い洞察を与えている。
さらに,本手法の重要成分を検討するためにアブレーション研究を行っている。
データセットとコードはGithubで公開される。
関連論文リスト
- Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and Baseline [6.676841280436392]
ショートフォームビデオ(SV)が普及すると、SVに対してビデオ感情分析(VEA)を行う必要がある。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いた音声-視覚ベースラインAV-CANetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。