論文の概要: Multi-modal Residual Perceptron Network for Audio-Video Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2107.10742v1
- Date: Wed, 21 Jul 2021 13:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-24 01:20:38.939428
- Title: Multi-modal Residual Perceptron Network for Audio-Video Emotion
Recognition
- Title(参考訳): 音声映像感情認識のためのマルチモーダル残留パーセプトロンネットワーク
- Authors: Xin Chang and W{\l}adys{\l}aw Skarbek
- Abstract要約: ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するマルチモーダル残留パーセプトロンネットワーク(MRPN)を提案する。
提案したMPPNモデルとストリーミングデジタル映画の新たな時間拡張のために、最先端の平均認識率は91.4%に向上した。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition is an important research field for Human-Computer
Interaction(HCI). Audio-Video Emotion Recognition (AVER) is now attacked with
Deep Neural Network (DNN) modeling tools. In published papers, as a rule, the
authors show only cases of the superiority of multi modalities over audio-only
or video-only modalities. However, there are cases superiority in single
modality can be found. In our research, we hypothesize that for fuzzy
categories of emotional events, the higher noise of one modality can amplify
the lower noise of the second modality represented indirectly in the parameters
of the modeling neural network. To avoid such cross-modal information
interference we define a multi-modal Residual Perceptron Network (MRPN) which
learns from multi-modal network branches creating deep feature representation
with reduced noise. For the proposed MRPN model and the novel time augmentation
for streamed digital movies, the state-of-art average recognition rate was
improved to 91.4% for The Ryerson Audio-Visual Database of Emotional Speech and
Song(RAVDESS) dataset and to 83.15% for Crowd-sourced Emotional multi-modal
Actors Dataset(Crema-d). Moreover, the MRPN concept shows its potential for
multi-modal classifiers dealing with signal sources not only of optical and
acoustical type.
- Abstract(参考訳): 感情認識はヒューマン・コンピュータ・インタラクション(HCI)にとって重要な研究分野である。
AVER(Audio-Video Emotion Recognition)は現在、Deep Neural Network (DNN)モデリングツールで攻撃されている。
出版論文では、原則として、著者らは、オーディオのみまたはビデオのみのモダリティよりも、複数のモダリティが優れているケースのみを示す。
しかし、単一モダリティにおいて優位なケースもある。
本研究では,感情事象のファジィカテゴリに対して,一方のモダリティのノイズが高ければ高いほど,モデリングニューラルネットワークのパラメータに間接的に表される第2のモダリティの低ノイズが増幅する,という仮説を定式化する。
このようなクロスモーダルな情報干渉を避けるために、ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するMRPN(Multi-modal Residual Perceptron Network)を定義する。
提案するmrpnモデルとストリーミングされたデジタル映画の平均認識率は,ryerson audio-visual database of emotional speech and song(ravdess)データセットの91.4%,クラウドソース感情多モーダルアクタデータセット(crema-d)の83.15%に向上した。
さらに、mrpnの概念は、光学的および音響的タイプだけでなく、信号源を扱うマルチモーダル分類器にその可能性を示す。
関連論文リスト
- Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment [11.063156506583562]
本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2024-09-14T21:58:39Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Hypernetworks build Implicit Neural Representations of Sounds [18.28957270390735]
Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
INRを利用する既存の方法は、画像ベースのINRモデルのアーキテクチャ特性に現れる帰納的バイアスのため、主に視覚データに焦点を絞っている。
我々は、ハイパーネットワークを活用して、トレーニング中に観察されたサンプルを超えて一般化する、オーディオサンプルのためのINRを生成する最初のメタ学習アプローチであるHyperSoundを紹介した。
我々のアプローチは、他の状態に匹敵する品質でオーディオサンプルを再構成する
論文 参考訳(メタデータ) (2023-02-09T22:24:26Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - HyperSound: Generating Implicit Neural Representations of Audio Signals
with Hypernetworks [23.390919506056502]
Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。
本稿では,ハイパーネットを利用したメタ学習手法であるHyperSoundを提案する。
提案手法は,他の最先端モデルに匹敵する品質で音波を再構成できることを示す。
論文 参考訳(メタデータ) (2022-11-03T14:20:32Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - DeepMSRF: A novel Deep Multimodal Speaker Recognition framework with
Feature selection [2.495606047371841]
特徴選択を用いたディープマルチモーダル話者認識法であるディープMSRFを提案する。
我々は2つのモードの特徴、すなわち話者の音声と顔画像の供給によってDeepMSRFを実行する。
DeepMSRFの目標は、まず話者の性別を特定し、さらに特定のビデオストリームに対して氏の名前を認識することである。
論文 参考訳(メタデータ) (2020-07-14T04:28:12Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。