論文の概要: Audio-video Emotion Recognition in the Wild using Deep Hybrid Networks
- arxiv url: http://arxiv.org/abs/2002.09023v1
- Date: Thu, 20 Feb 2020 21:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:03:38.664129
- Title: Audio-video Emotion Recognition in the Wild using Deep Hybrid Networks
- Title(参考訳): ディープハイブリッドネットワークを用いた野生における音声映像の感情認識
- Authors: Xin Guo and Luisa F. Polan\'ia and Kenneth E. Barner
- Abstract要約: 実験の結果,提案したハイブリッドネットワークはベースライン法よりも大きなマージンで優れていた。
畳み込みニューラルネットワーク(CNN)とリカレントニュートラネット(RNN)が顔画像で訓練されるのに加え、ハイブリッドネットワークは、全体音響特徴ベクトルで訓練された1つのSVM分類器、短期特徴系列で訓練された1つの長期記憶ネットワーク(LSTM)、イメージライクな地図で訓練された1つのInception(v2)-LSTMネットワークを含む。
- 参考スコア(独自算出の注目度): 6.151486024920938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an audiovisual-based emotion recognition hybrid network.
While most of the previous work focuses either on using deep models or
hand-engineered features extracted from images, we explore multiple deep models
built on both images and audio signals. Specifically, in addition to
convolutional neural networks (CNN) and recurrent neutral networks (RNN)
trained on facial images, the hybrid network also contains one SVM classifier
trained on holistic acoustic feature vectors, one long short-term memory
network (LSTM) trained on short-term feature sequences extracted from segmented
audio clips, and one Inception(v2)-LSTM network trained on image-like maps,
which are built based on short-term acoustic feature sequences. Experimental
results show that the proposed hybrid network outperforms the baseline method
by a large margin.
- Abstract(参考訳): 本稿では,音声視覚に基づく感情認識ハイブリッドネットワークを提案する。
これまでの研究のほとんどは、深層モデルや画像から抽出された手作業による機能に焦点が当てられていたが、私たちは、画像とオーディオ信号の両方で構築された複数の深層モデルを調査した。
具体的には、畳み込みニューラルネットワーク(CNN)と、顔画像に基づいて訓練されたリカレントニュートラルネットワーク(RNN)に加えて、このハイブリッドネットワークは、全体音響特徴ベクトルに基づいて訓練された1つのSVM分類器、セグメント付きオーディオクリップから抽出された短期特徴系列に基づいて訓練された1つの長期記憶ネットワーク(LSTM)、短期音響特徴系列に基づいて構築された画像のようなマップに基づいて訓練された1つのインセプション(v2)-LSTMネットワークを含む。
実験の結果,提案したハイブリッドネットワークはベースライン法よりも大きなマージンで優れていた。
関連論文リスト
- Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Video Scene Location Recognition with Neural Networks [0.0]
本稿では,連続する撮影箇所の少ない映像系列からのシーン認識の可能性について考察する。
提案手法の基本的な考え方は、各シーンからフレームのセットを選択し、トレーニング済みの単一イメージ前処理畳み込みネットワークでそれらを変換し、その後のニューラルネットワークの層とシーンの位置を分類することである。
我々は、個々のフレーム、特にAveragePooling、MaxPooling、Product、Flatten、LSTM、Bidirectional LSTMレイヤを組み合わせるために、異なるニューラルネットワーク層を調査した。
論文 参考訳(メタデータ) (2023-09-21T09:42:39Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - New SAR target recognition based on YOLO and very deep multi-canonical
correlation analysis [0.1503974529275767]
本稿では,異なるCNN層から有効な特徴を適応的に融合させることにより,SAR画像ターゲット分類のためのロバストな特徴抽出手法を提案する。
MSTARデータセットの実験により,提案手法が最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-28T18:10:26Z) - Dynamic Slimmable Denoising Network [64.77565006158895]
DDSNet(Dynamic Slimmable Denoising Network)は、計算量が少なくて優れたDenoising品質を実現するための一般的な手法である。
OurNetには動的ゲートによる動的推論の能力が備わっている。
我々の実験は、最先端の個別に訓練された静的 denoising ネットワークよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-10-17T22:45:33Z) - Self-supervised Neural Networks for Spectral Snapshot Compressive
Imaging [15.616674529295366]
我々は、訓練されていないニューラルネットワークを用いて、スナップショット圧縮画像(SCI)の再構成問題を解決することを検討する。
本稿では,DIP(Deep Image Priors)やディープデコーダ(Deep Decoder)といった未学習のニューラルネットワークにヒントを得て,DIPをプラグアンドプレイシステムに統合して,スペクトルSCI再構成のための自己教師型ネットワークを構築する。
論文 参考訳(メタデータ) (2021-08-28T14:17:38Z) - ResMLP: Feedforward networks for image classification with
data-efficient training [73.26364887378597]
画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。
Timmライブラリと事前トレーニングされたモデルに基づいたコードを共有します。
論文 参考訳(メタデータ) (2021-05-07T17:31:44Z) - Densely Connected Recurrent Residual (Dense R2UNet) Convolutional Neural
Network for Segmentation of Lung CT Images [0.342658286826597]
本稿では,U-Netモデルアーキテクチャに基づくリカレントCNN,Residual Network,Dense Convolutional Networkの合成について述べる。
ベンチマークLung Lesionデータセットで検証したモデルでは、同等のモデルよりもセグメンテーションタスクのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-02-01T06:34:10Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z) - Multi-wavelet residual dense convolutional neural network for image
denoising [2.500475462213752]
画像復号化タスクにおけるネットワークの性能と頑健性を改善するために, 短期的残差学習法を用いる。
ここでは、バックボーンとしてマルチウェーブレット畳み込みニューラルネットワーク(MWCNN)を選択し、各層に残留密度ブロック(RDB)を挿入する。
他のRDBベースのネットワークと比較して、隣接する層からオブジェクトのより多くの特徴を抽出し、大きなRFを保存し、計算効率を高めることができる。
論文 参考訳(メタデータ) (2020-02-19T17:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。