論文の概要: Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2105.07484v1
- Date: Sun, 16 May 2021 17:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:46:30.599937
- Title: Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild
- Title(参考訳): 野生における映像に基づく視覚的感情認識のための文脈的アプローチによるセマンティックシーン特性とマルチストリーム畳み込みアーキテクチャの活用
- Authors: Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
- Abstract要約: 私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
- 参考スコア(独自算出の注目度): 31.40575057347465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we tackle the task of video-based visual emotion recognition in
the wild. Standard methodologies that rely solely on the extraction of bodily
and facial features often fall short of accurate emotion prediction in cases
where the aforementioned sources of affective information are inaccessible due
to head/body orientation, low resolution and poor illumination. We aspire to
alleviate this problem by leveraging visual context in the form of scene
characteristics and attributes, as part of a broader emotion recognition
framework. Temporal Segment Networks (TSN) constitute the backbone of our
proposed model. Apart from the RGB input modality, we make use of dense Optical
Flow, following an intuitive multi-stream approach for a more effective
encoding of motion. Furthermore, we shift our attention towards skeleton-based
learning and leverage action-centric data as means of pre-training a
Spatial-Temporal Graph Convolutional Network (ST-GCN) for the task of emotion
recognition. Our extensive experiments on the challenging Body Language Dataset
(BoLD) verify the superiority of our methods over existing approaches, while by
properly incorporating all of the aforementioned modules in a network ensemble,
we manage to surpass the previous best published recognition scores, by a large
margin.
- Abstract(参考訳): 本研究では,野生における映像に基づく視覚的感情認識の課題に取り組む。
身体と顔の特徴の抽出のみに依存する標準的な方法論は、頭/身体の向き、解像度の低さ、照明の低さなどにより、前述の感情情報の源に到達できない場合、正確な感情予測に不足することが多い。
我々は、より広い感情認識フレームワークの一部として、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
時間セグメントネットワーク(TSN)は,提案モデルのバックボーンを構成する。
RGB入力のモダリティとは別に、より効率的な動作符号化のための直感的なマルチストリームアプローチに従って、高密度光フローを利用する。
さらに,感情認識のための空間-時間グラフ畳み込みネットワーク(st-gcn)を事前学習する手段として,スケルトンベース学習に注目を移し,行動中心データを活用する。
ボディーランゲージデータセット(BoLD)に関する広範な実験により、既存のアプローチよりもメソッドの優位性を検証するとともに、上記の全てのモジュールをネットワークアンサンブルに適切に組み込むことで、これまでで最も優れた認識スコアを大きなマージンで達成することに成功した。
関連論文リスト
- Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - An audiovisual and contextual approach for categorical and continuous
emotion recognition in-the-wild [27.943550651941166]
第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。
顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。
我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
論文 参考訳(メタデータ) (2021-07-07T20:13:17Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - Neural Networks for Semantic Gaze Analysis in XR Settings [0.0]
本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。
画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
論文 参考訳(メタデータ) (2021-03-18T18:05:01Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。