Fugu-MT 論文翻訳(概要): Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild

論文の概要: Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild

arxiv url: http://arxiv.org/abs/2105.07484v1
Date: Sun, 16 May 2021 17:31:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-18 14:46:30.599937
Title: Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild
Title（参考訳）: 野生における映像に基づく視覚的感情認識のための文脈的アプローチによるセマンティックシーン特性とマルチストリーム畳み込みアーキテクチャの活用
Authors: Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
Abstract要約: 私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
参考スコア（独自算出の注目度）: 31.40575057347465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work we tackle the task of video-based visual emotion recognition in the wild. Standard methodologies that rely solely on the extraction of bodily and facial features often fall short of accurate emotion prediction in cases where the aforementioned sources of affective information are inaccessible due to head/body orientation, low resolution and poor illumination. We aspire to alleviate this problem by leveraging visual context in the form of scene characteristics and attributes, as part of a broader emotion recognition framework. Temporal Segment Networks (TSN) constitute the backbone of our proposed model. Apart from the RGB input modality, we make use of dense Optical Flow, following an intuitive multi-stream approach for a more effective encoding of motion. Furthermore, we shift our attention towards skeleton-based learning and leverage action-centric data as means of pre-training a Spatial-Temporal Graph Convolutional Network (ST-GCN) for the task of emotion recognition. Our extensive experiments on the challenging Body Language Dataset (BoLD) verify the superiority of our methods over existing approaches, while by properly incorporating all of the aforementioned modules in a network ensemble, we manage to surpass the previous best published recognition scores, by a large margin.
Abstract（参考訳）: 本研究では,野生における映像に基づく視覚的感情認識の課題に取り組む。身体と顔の特徴の抽出のみに依存する標準的な方法論は、頭/身体の向き、解像度の低さ、照明の低さなどにより、前述の感情情報の源に到達できない場合、正確な感情予測に不足することが多い。我々は、より広い感情認識フレームワークの一部として、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。時間セグメントネットワーク(TSN)は,提案モデルのバックボーンを構成する。 RGB入力のモダリティとは別に、より効率的な動作符号化のための直感的なマルチストリームアプローチに従って、高密度光フローを利用する。さらに,感情認識のための空間-時間グラフ畳み込みネットワーク(st-gcn)を事前学習する手段として,スケルトンベース学習に注目を移し,行動中心データを活用する。ボディーランゲージデータセット(BoLD)に関する広範な実験により、既存のアプローチよりもメソッドの優位性を検証するとともに、上記の全てのモジュールをネットワークアンサンブルに適切に組み込むことで、これまでで最も優れた認識スコアを大きなマージンで達成することに成功した。

関連論文リスト

Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [84.21257150497254]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文参考訳（メタデータ） (2025-05-06T15:09:23Z)
Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文参考訳（メタデータ） (2024-06-20T07:24:47Z)
Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-05-08T09:13:10Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
EMERSK -- Explainable Multimodal Emotion Recognition with Situational Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。 EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文参考訳（メタデータ） (2023-06-14T17:52:37Z)
An audiovisual and contextual approach for categorical and continuous emotion recognition in-the-wild [27.943550651941166]
第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
論文参考訳（メタデータ） (2021-07-07T20:13:17Z)
Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文参考訳（メタデータ） (2021-04-14T21:37:23Z)
Neural Networks for Semantic Gaze Analysis in XR Settings [0.0]
本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
論文参考訳（メタデータ） (2021-03-18T18:05:01Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Video-based Facial Expression Recognition using Graph Convolutional Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文参考訳（メタデータ） (2020-10-26T07:31:51Z)
Complex Human Action Recognition in Live Videos Using Hybrid FR-DL Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文参考訳（メタデータ） (2020-07-06T15:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。