論文の概要: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos
- arxiv url: http://arxiv.org/abs/2311.17335v1
- Date: Wed, 29 Nov 2023 03:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:39:47.509669
- Title: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos
- Title(参考訳): eMotions:ショートビデオにおける感情認識のための大規模データセット
- Authors: Xuecheng Wu, Heli Sun, Junxiao Xue, Ruofan Zhai, Xiangyan Kong, Jiayu
Nie, Liang He
- Abstract要約: 短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
- 参考スコア(独自算出の注目度): 7.011656298079659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, short videos (SVs) are essential to information acquisition and
sharing in our life. The prevailing use of SVs to spread emotions leads to the
necessity of emotion recognition in SVs. Considering the lack of SVs emotion
data, we introduce a large-scale dataset named eMotions, comprising 27,996
videos. Meanwhile, we alleviate the impact of subjectivities on labeling
quality by emphasizing better personnel allocations and multi-stage
annotations. In addition, we provide the category-balanced and test-oriented
variants through targeted data sampling. Some commonly used videos (e.g.,
facial expressions and postures) have been well studied. However, it is still
challenging to understand the emotions in SVs. Since the enhanced content
diversity brings more distinct semantic gaps and difficulties in learning
emotion-related features, and there exists information gaps caused by the
emotion incompleteness under the prevalently audio-visual co-expressions. To
tackle these problems, we present an end-to-end baseline method AV-CPNet that
employs the video transformer to better learn semantically relevant
representations. We further design the two-stage cross-modal fusion module to
complementarily model the correlations of audio-visual features. The EP-CE
Loss, incorporating three emotion polarities, is then applied to guide model
optimization. Extensive experimental results on nine datasets verify the
effectiveness of AV-CPNet. Datasets and code will be open on
https://github.com/XuecWu/eMotions.
- Abstract(参考訳): 現在、私たちの生活における情報取得と共有にはショートビデオ(SV)が不可欠である。
感情を広めるためのSVの使用は、SVにおける感情認識の必要性につながる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
一方で,人員配置や多段階アノテーションの充実により,主観性がラベル品質に与える影響を緩和する。
さらに、ターゲットデータサンプリングを通じてカテゴリバランスとテスト指向のバリエーションを提供する。
一般的に使用されるビデオ(例えば、表情や姿勢)はよく研究されている。
しかし、SVの感情を理解することは依然として困難である。
内容の多様性が強化されたことにより、感情に関連した特徴を学習する際の意味的ギャップと困難がより大きくなり、音声と視覚の共表現の下で感情の不完全性によって引き起こされる情報ギャップが存在する。
これらの問題に対処するために,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
さらに,視聴覚特徴の相関を相補的にモデル化する2段クロスモーダル融合モジュールの設計を行った。
3つの感情極性を含むEP-CEロスをモデル最適化のガイドに適用する。
av-cpnetの有効性を検証する9つのデータセットに関する広範な実験結果
データセットとコードはhttps://github.com/xuecwu/emotionsで公開される。
関連論文リスト
- Data Augmentation for Emotion Detection in Small Imbalanced Text Data [0.0]
課題の1つは、感情で注釈付けされた利用可能なデータセットが不足していることだ。
我々は、小さな不均衡なデータセットに適用した場合に、データ拡張技術が与える影響を正確に調査した。
実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-10-25T21:29:36Z) - Efficient Labelling of Affective Video Datasets via Few-Shot &
Multi-Task Contrastive Learning [5.235294751659532]
本稿では, 影響表現のためのマルチタスクコントラスト学習(textbfMT-CLAR)を提案する。
MT-CLARは、マルチタスク学習と、対照的な学習を通じて訓練されたシームズネットワークを組み合わせて、表現力のある顔画像から推測する。
自動ビデオラベリングのための画像ベースMT-CLARフレームワークを拡張した。
論文 参考訳(メタデータ) (2023-08-04T07:19:08Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Versatile Audio-Visual Learning for Handling Single and Multi Modalities
in Emotion Regression and Classification Tasks [28.03046198108713]
本研究は,非モーダル・マルチモーダルシステムを扱うための音声視覚学習(VAVL)フレームワークを提案する。
音声と視覚のペアリングができない場合でもトレーニングできるオーディオ・ビジュアル・フレームワークを実装した。
VAVLは、MSP-IMPROVコーパス上で感情属性予測タスクにおいて、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - MAFW: A Large-scale, Multi-modal, Compound Affective Database for
Dynamic Facial Expression Recognition in the Wild [56.61912265155151]
大規模複合感情データベースMAFWを提案する。
各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。
複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文 参考訳(メタデータ) (2022-08-01T13:34:33Z) - Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual
Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。
本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。
本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文 参考訳(メタデータ) (2020-11-25T01:31:01Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。