Fugu-MT 論文翻訳(概要): eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos

論文の概要: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos

arxiv url: http://arxiv.org/abs/2311.17335v1
Date: Wed, 29 Nov 2023 03:24:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:39:47.509669
Title: eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos
Title（参考訳）: eMotions:ショートビデオにおける感情認識のための大規模データセット
Authors: Xuecheng Wu, Heli Sun, Junxiao Xue, Ruofan Zhai, Xiangyan Kong, Jiayu Nie, Liang He
Abstract要約: 短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。 SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
参考スコア（独自算出の注目度）: 7.011656298079659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, short videos (SVs) are essential to information acquisition and sharing in our life. The prevailing use of SVs to spread emotions leads to the necessity of emotion recognition in SVs. Considering the lack of SVs emotion data, we introduce a large-scale dataset named eMotions, comprising 27,996 videos. Meanwhile, we alleviate the impact of subjectivities on labeling quality by emphasizing better personnel allocations and multi-stage annotations. In addition, we provide the category-balanced and test-oriented variants through targeted data sampling. Some commonly used videos (e.g., facial expressions and postures) have been well studied. However, it is still challenging to understand the emotions in SVs. Since the enhanced content diversity brings more distinct semantic gaps and difficulties in learning emotion-related features, and there exists information gaps caused by the emotion incompleteness under the prevalently audio-visual co-expressions. To tackle these problems, we present an end-to-end baseline method AV-CPNet that employs the video transformer to better learn semantically relevant representations. We further design the two-stage cross-modal fusion module to complementarily model the correlations of audio-visual features. The EP-CE Loss, incorporating three emotion polarities, is then applied to guide model optimization. Extensive experimental results on nine datasets verify the effectiveness of AV-CPNet. Datasets and code will be open on https://github.com/XuecWu/eMotions.
Abstract（参考訳）: 現在、私たちの生活における情報取得と共有にはショートビデオ(SV)が不可欠である。感情を広めるためのSVの使用は、SVにおける感情認識の必要性につながる。 SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。一方で,人員配置や多段階アノテーションの充実により,主観性がラベル品質に与える影響を緩和する。さらに、ターゲットデータサンプリングを通じてカテゴリバランスとテスト指向のバリエーションを提供する。一般的に使用されるビデオ(例えば、表情や姿勢)はよく研究されている。しかし、SVの感情を理解することは依然として困難である。内容の多様性が強化されたことにより、感情に関連した特徴を学習する際の意味的ギャップと困難がより大きくなり、音声と視覚の共表現の下で感情の不完全性によって引き起こされる情報ギャップが存在する。これらの問題に対処するために,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。さらに,視聴覚特徴の相関を相補的にモデル化する2段クロスモーダル融合モジュールの設計を行った。 3つの感情極性を含むEP-CEロスをモデル最適化のガイドに適用する。 av-cpnetの有効性を検証する9つのデータセットに関する広範な実験結果データセットとコードはhttps://github.com/xuecwu/emotionsで公開される。

関連論文リスト

A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。 VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文参考訳（メタデータ） (2025-06-16T14:39:03Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文参考訳（メタデータ） (2024-07-11T03:00:26Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Data Augmentation for Emotion Detection in Small Imbalanced Text Data [0.0]
課題の1つは、感情で注釈付けされた利用可能なデータセットが不足していることだ。我々は、小さな不均衡なデータセットに適用した場合に、データ拡張技術が与える影響を正確に調査した。実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
論文参考訳（メタデータ） (2023-10-25T21:29:36Z)
Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning [5.235294751659532]
本稿では, 影響表現のためのマルチタスクコントラスト学習(textbfMT-CLAR)を提案する。 MT-CLARは、マルチタスク学習と、対照的な学習を通じて訓練されたシームズネットワークを組み合わせて、表現力のある顔画像から推測する。自動ビデオラベリングのための画像ベースMT-CLARフレームワークを拡張した。
論文参考訳（メタデータ） (2023-08-04T07:19:08Z)
Disentangled Variational Autoencoder for Emotion Recognition in Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。 VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文参考訳（メタデータ） (2023-05-23T13:50:06Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。 UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文参考訳（メタデータ） (2023-01-16T08:43:17Z)
How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。 Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。 Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文参考訳（メタデータ） (2022-10-18T17:58:25Z)
A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文参考訳（メタデータ） (2022-06-20T07:25:13Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)
Use of Affective Visual Information for Summarization of Human-Centric Videos [13.273989782771556]
本研究では、人間中心のビデオに対する感情情報豊かに教師付きビデオ要約タスクについて検討する。まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ(AVSUM)を定義する。
論文参考訳（メタデータ） (2021-07-08T11:46:04Z)
Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文参考訳（メタデータ） (2020-11-25T01:31:01Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。