論文の概要: FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference
- arxiv url: http://arxiv.org/abs/2209.10170v1
- Date: Wed, 21 Sep 2022 08:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:27:10.226505
- Title: FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference
- Title(参考訳): FV2ES: 高速かつ効果的なビデオ感情認識のためのフルエンド2エンドマルチモーダルシステム
- Authors: Qinglan Wei, Xuling Huang, Yuan Zhang
- Abstract要約: 本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。
音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。
整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
- 参考スコア(独自算出の注目度): 6.279057784373124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the latest social networks, more and more people prefer to express their
emotions in videos through text, speech, and rich facial expressions.
Multimodal video emotion analysis techniques can help understand users' inner
world automatically based on human expressions and gestures in images, tones in
voices, and recognized natural language. However, in the existing research, the
acoustic modality has long been in a marginal position as compared to visual
and textual modalities. That is, it tends to be more difficult to improve the
contribution of the acoustic modality for the whole multimodal emotion
recognition task. Besides, although better performance can be obtained by
introducing common deep learning methods, the complex structures of these
training models always result in low inference efficiency, especially when
exposed to high-resolution and long-length videos. Moreover, the lack of a
fully end-to-end multimodal video emotion recognition system hinders its
application. In this paper, we designed a fully multimodal video-to-emotion
system (named FV2ES) for fast yet effective recognition inference, whose
benefits are threefold: (1) The adoption of the hierarchical attention method
upon the sound spectra breaks through the limited contribution of the acoustic
modality and outperforms the existing models' performance on both IEMOCAP and
CMU-MOSEI datasets; (2) the introduction of the idea of multi-scale for visual
extraction while single-branch for inference brings higher efficiency and
maintains the prediction accuracy at the same time; (3) the further integration
of data pre-processing into the aligned multimodal learning model allows the
significant reduction of computational costs and storage space.
- Abstract(参考訳): 最新のソーシャルネットワークでは、テキスト、スピーチ、リッチな表情で自分の感情をビデオで表現することを好む人がますます増えている。
マルチモーダルビデオ感情分析技術は、画像の人間の表情やジェスチャー、音声のトーン、認識された自然言語に基づいて、ユーザーの内的世界を自動的に理解するのに役立つ。
しかし、既存の研究では、視覚やテキストのモダリティと比較して、音響モダリティはずっと限界的な位置にある。
すなわち、マルチモーダル感情認識タスク全体に対する音響モダリティの寄与を改善することがより困難になる傾向がある。
さらに、一般的なディープラーニング手法を導入することで、より良いパフォーマンスが得られるが、これらのトレーニングモデルの複雑な構造は常に推論効率が低く、特に高解像度で長大なビデオに曝される。
さらに、完全なエンドツーエンドのマルチモーダルビデオ感情認識システムの欠如は、その応用を妨げている。
In this paper, we designed a fully multimodal video-to-emotion system (named FV2ES) for fast yet effective recognition inference, whose benefits are threefold: (1) The adoption of the hierarchical attention method upon the sound spectra breaks through the limited contribution of the acoustic modality and outperforms the existing models' performance on both IEMOCAP and CMU-MOSEI datasets; (2) the introduction of the idea of multi-scale for visual extraction while single-branch for inference brings higher efficiency and maintains the prediction accuracy at the same time; (3) the further integration of data pre-processing into the aligned multimodal learning model allows the significant reduction of computational costs and storage space.
関連論文リスト
- Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment [11.063156506583562]
本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2024-09-14T21:58:39Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。
我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。
特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition [38.350188118975616]
本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-04-28T01:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。