論文の概要: An audiovisual and contextual approach for categorical and continuous
emotion recognition in-the-wild
- arxiv url: http://arxiv.org/abs/2107.03465v1
- Date: Wed, 7 Jul 2021 20:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 21:49:08.122682
- Title: An audiovisual and contextual approach for categorical and continuous
emotion recognition in-the-wild
- Title(参考訳): 音声の視覚的・文脈的アプローチによるカテゴリー的・連続的な感情認識
- Authors: Panagiotis Antoniadis, Ioannis Pikoulis, Panagiotis P. Filntisis,
Petros Maragos
- Abstract要約: 第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。
顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。
我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
- 参考スコア(独自算出の注目度): 27.943550651941166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we tackle the task of video-based audio-visual emotion
recognition, within the premises of the 2nd Workshop and Competition on
Affective Behavior Analysis in-the-wild (ABAW). Standard methodologies that
rely solely on the extraction of facial features often fall short of accurate
emotion prediction in cases where the aforementioned source of affective
information is inaccessible due to head/body orientation, low resolution and
poor illumination. We aspire to alleviate this problem by leveraging bodily as
well as contextual features, as part of a broader emotion recognition
framework. A standard CNN-RNN cascade constitutes the backbone of our proposed
model for sequence-to-sequence (seq2seq) learning. Apart from learning through
the \textit{RGB} input modality, we construct an aural stream which operates on
sequences of extracted mel-spectrograms. Our extensive experiments on the
challenging and newly assembled Affect-in-the-wild-2 (Aff-Wild2) dataset verify
the superiority of our methods over existing approaches, while by properly
incorporating all of the aforementioned modules in a network ensemble, we
manage to surpass the previous best published recognition scores, in the
official validation set. All the code was implemented using
PyTorch\footnote{\url{https://pytorch.org/}} and is publicly
available\footnote{\url{https://github.com/PanosAntoniadis/NTUA-ABAW2021}}.
- Abstract(参考訳): 本研究は,第2回ワークショップの構内における映像に基づく音声・視覚感情認識の課題と,愛着的行動分析(abaw)に関するコンペティションについて述べる。
顔の特徴の抽出にのみ依存する標準的な方法論は、頭/体方向、解像度の低さ、照明の悪さなどにより、前述の情緒的情報の源が到達できない場合、正確な感情予測に欠けることが多い。
我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を軽減することを目指している。
標準的なcnn-rnnカスケードは、seq2seq(sequence-to-sequence)学習のための提案モデルのバックボーンを構成する。
入力モダリティである \textit{rgb} による学習とは別に,メル・スペクトログラムのシーケンスを操作するオーラルストリームを構築する。
Affect-in-the-Wild-2 (Aff-Wild2) データセットの挑戦的かつ新たに構築された実験により、既存のアプローチよりもメソッドの優位性を検証するとともに、上記の全てのモジュールをネットワークアンサンブルに適切に組み込むことにより、オフィシャル検証セットにおいて、先行した最高の認識スコアを超えることができる。
すべてのコードはPyTorch\footnote{\url{https://pytorch.org/}}を使って実装され、一般公開されている。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Cross-Domain First Person Audio-Visual Action Recognition through
Relative Norm Alignment [15.545769463854915]
ファースト・パーソン・アクション・認識は、ウェアラブル・カメラの人気が高まっているため、ますます研究が進んでいるトピックである。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,音声・視覚信号の本質的な相補性を利用して,学習中のデータによく作用する表現を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-03T08:46:43Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。