論文の概要: An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos
- arxiv url: http://arxiv.org/abs/2003.00832v1
- Date: Wed, 12 Feb 2020 15:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:40:56.769003
- Title: An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos
- Title(参考訳): ユーザ生成ビデオにおける感情認識のためのエンド・ツー・エンド視覚聴覚ネットワーク
- Authors: Sicheng Zhao, Yunsheng Ma, Yang Gu, Jufeng Yang, Tengfei Xing, Pengfei
Xu, Runbo Hu, Hua Chai, Kurt Keutzer
- Abstract要約: 畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
- 参考スコア(独自算出の注目度): 64.91614454412257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in user-generated videos plays an important role in
human-centered computing. Existing methods mainly employ traditional two-stage
shallow pipeline, i.e. extracting visual and/or audio features and training
classifiers. In this paper, we propose to recognize video emotions in an
end-to-end manner based on convolutional neural networks (CNNs). Specifically,
we develop a deep Visual-Audio Attention Network (VAANet), a novel architecture
that integrates spatial, channel-wise, and temporal attentions into a visual 3D
CNN and temporal attentions into an audio 2D CNN. Further, we design a special
classification loss, i.e. polarity-consistent cross-entropy loss, based on the
polarity-emotion hierarchy constraint to guide the attention generation.
Extensive experiments conducted on the challenging VideoEmotion-8 and Ekman-6
datasets demonstrate that the proposed VAANet outperforms the state-of-the-art
approaches for video emotion recognition. Our source code is released at:
https://github.com/maysonma/VAANet.
- Abstract(参考訳): ユーザ生成ビデオにおける感情認識は,人間中心型コンピューティングにおいて重要な役割を果たす。
既存の手法は主に従来の2段階の浅いパイプライン、すなわち視覚的特徴や音声的特徴を抽出し、分類器を訓練する。
本稿では,畳み込みニューラルネットワーク(CNN)に基づいて,映像の感情をエンドツーエンドで認識することを提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層視覚聴覚ネットワーク(VAANet)を開発した。
さらに,注意生成を導くために,ポーラリティ・エモーション階層制約に基づいて,特別な分類損失,すなわち極性整合クロスエントロピー損失を設計する。
挑戦的なVideoEmotion-8とEkman-6データセットで実施された大規模な実験により、提案されたVAANetは、ビデオ感情認識の最先端アプローチよりも優れていることが示された。
ソースコードはhttps://github.com/maysonma/vaanet。
関連論文リスト
- Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Emotion recognition in talking-face videos using persistent entropy and
neural networks [0.5156484100374059]
私たちは、会話ビデオから感情を認識し、分類するための主要なツールとして、永続的エントロピーとニューラルネットワークを使用します。
ビデオの小さな変化は、署名に小さな変化をもたらすことを証明している。
これらのトポロジカルなシグネチャは、ニューラル・ネットワークに、中立、穏やか、幸せ、悲しみ、怒り、恐怖、嫌悪、驚きの感情を区別するために使用される。
論文 参考訳(メタデータ) (2021-10-26T11:08:56Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Emotion Recognition in Audio and Video Using Deep Neural Networks [9.694548197876868]
ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。
本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
論文 参考訳(メタデータ) (2020-06-15T04:50:18Z) - Emotional Video to Audio Transformation Using Deep Recurrent Neural
Networks and a Neuro-Fuzzy System [8.900866276512364]
現在のアプローチは、音楽生成ステップにおけるビデオの感情的特徴を見落としている。
本稿では,適応型ニューロファジィ推論システムを用いて映像の感情を予測するハイブリッドディープニューラルネットワークを提案する。
我々のモデルは、両方のデータセットのビューアーから類似した感情を引き出すシーンにマッチする音声を効果的に生成できる。
論文 参考訳(メタデータ) (2020-04-05T07:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。