論文の概要: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos
- arxiv url: http://arxiv.org/abs/2311.17335v1
- Date: Wed, 29 Nov 2023 03:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:39:47.509669
- Title: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos
- Title(参考訳): eMotions:ショートビデオにおける感情認識のための大規模データセット
- Authors: Xuecheng Wu, Heli Sun, Junxiao Xue, Ruofan Zhai, Xiangyan Kong, Jiayu
Nie, Liang He
- Abstract要約: 短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
- 参考スコア(独自算出の注目度): 7.011656298079659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, short videos (SVs) are essential to information acquisition and
sharing in our life. The prevailing use of SVs to spread emotions leads to the
necessity of emotion recognition in SVs. Considering the lack of SVs emotion
data, we introduce a large-scale dataset named eMotions, comprising 27,996
videos. Meanwhile, we alleviate the impact of subjectivities on labeling
quality by emphasizing better personnel allocations and multi-stage
annotations. In addition, we provide the category-balanced and test-oriented
variants through targeted data sampling. Some commonly used videos (e.g.,
facial expressions and postures) have been well studied. However, it is still
challenging to understand the emotions in SVs. Since the enhanced content
diversity brings more distinct semantic gaps and difficulties in learning
emotion-related features, and there exists information gaps caused by the
emotion incompleteness under the prevalently audio-visual co-expressions. To
tackle these problems, we present an end-to-end baseline method AV-CPNet that
employs the video transformer to better learn semantically relevant
representations. We further design the two-stage cross-modal fusion module to
complementarily model the correlations of audio-visual features. The EP-CE
Loss, incorporating three emotion polarities, is then applied to guide model
optimization. Extensive experimental results on nine datasets verify the
effectiveness of AV-CPNet. Datasets and code will be open on
https://github.com/XuecWu/eMotions.
- Abstract(参考訳): 現在、私たちの生活における情報取得と共有にはショートビデオ(SV)が不可欠である。
感情を広めるためのSVの使用は、SVにおける感情認識の必要性につながる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
一方で,人員配置や多段階アノテーションの充実により,主観性がラベル品質に与える影響を緩和する。
さらに、ターゲットデータサンプリングを通じてカテゴリバランスとテスト指向のバリエーションを提供する。
一般的に使用されるビデオ(例えば、表情や姿勢)はよく研究されている。
しかし、SVの感情を理解することは依然として困難である。
内容の多様性が強化されたことにより、感情に関連した特徴を学習する際の意味的ギャップと困難がより大きくなり、音声と視覚の共表現の下で感情の不完全性によって引き起こされる情報ギャップが存在する。
これらの問題に対処するために,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
さらに,視聴覚特徴の相関を相補的にモデル化する2段クロスモーダル融合モジュールの設計を行った。
3つの感情極性を含むEP-CEロスをモデル最適化のガイドに適用する。
av-cpnetの有効性を検証する9つのデータセットに関する広範な実験結果
データセットとコードはhttps://github.com/xuecwu/emotionsで公開される。
関連論文リスト
- Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Data Augmentation for Emotion Detection in Small Imbalanced Text Data [0.0]
課題の1つは、感情で注釈付けされた利用可能なデータセットが不足していることだ。
我々は、小さな不均衡なデータセットに適用した場合に、データ拡張技術が与える影響を正確に調査した。
実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-10-25T21:29:36Z) - Efficient Labelling of Affective Video Datasets via Few-Shot &
Multi-Task Contrastive Learning [5.235294751659532]
本稿では, 影響表現のためのマルチタスクコントラスト学習(textbfMT-CLAR)を提案する。
MT-CLARは、マルチタスク学習と、対照的な学習を通じて訓練されたシームズネットワークを組み合わせて、表現力のある顔画像から推測する。
自動ビデオラベリングのための画像ベースMT-CLARフレームワークを拡張した。
論文 参考訳(メタデータ) (2023-08-04T07:19:08Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual
Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。
本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。
本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文 参考訳(メタデータ) (2020-11-25T01:31:01Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。