論文の概要: A Efficient Multimodal Framework for Large Scale Emotion Recognition by
Fusing Music and Electrodermal Activity Signals
- arxiv url: http://arxiv.org/abs/2008.09743v2
- Date: Thu, 2 Dec 2021 03:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:23:13.216385
- Title: A Efficient Multimodal Framework for Large Scale Emotion Recognition by
Fusing Music and Electrodermal Activity Signals
- Title(参考訳): 音楽と電極活動信号を用いた大規模感情認識のための効率的なマルチモーダルフレームワーク
- Authors: Guanghao Yin, Shouqian Sun, Dian Yu, Dejian Li and Kejun Zhang
- Abstract要約: 1次元残留時間・チャネルアテンションネットワーク(RTCAN-1D)のエンドツーエンドマルチモーダルフレームワークを提案する。
EDAの特徴については、新しい凸最適化に基づくEDA(CvxEDA)法を用いて、EDA信号をハッシュ信号とトニック信号に分解する。
音楽の特徴について,オープンソースツールキットopenSMILEを用いて音楽信号の処理を行い,外部特徴ベクトルを得る。
- 参考スコア(独自算出の注目度): 8.338268870275877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considerable attention has been paid for physiological signal-based emotion
recognition in field of affective computing. For the reliability and user
friendly acquisition, Electrodermal Activity (EDA) has great advantage in
practical applications. However, the EDA-based emotion recognition with
hundreds of subjects still lacks effective solution. In this paper, our work
makes an attempt to fuse the subject individual EDA features and the external
evoked music features. And we propose an end-to-end multimodal framework, the
1-dimensional residual temporal and channel attention network (RTCAN-1D). For
EDA features, the novel convex optimization-based EDA (CvxEDA) method is
applied to decompose EDA signals into pahsic and tonic signals for mining the
dynamic and steady features. The channel-temporal attention mechanism for
EDA-based emotion recognition is firstly involved to improve the temporal- and
channel-wise representation. For music features, we process the music signal
with the open source toolkit openSMILE to obtain external feature vectors. The
individual emotion features from EDA signals and external emotion benchmarks
from music are fused in the classifing layers. We have conducted systematic
comparisons on three multimodal datasets (PMEmo, DEAP, AMIGOS) for 2-classes
valance/arousal emotion recognition. Our proposed RTCAN-1D outperforms the
existing state-of-the-art models, which also validate that our work provides an
reliable and efficient solution for large scale emotion recognition. Our code
has been released at https://github.com/guanghaoyin/RTCAN-1D.
- Abstract(参考訳): 感情コンピューティングの分野では生理的信号に基づく感情認識に注意が払われている。
信頼性とユーザフレンドリな獲得のために、Electronrmal Activity (EDA) は実用上大きな利点がある。
しかし、何百人もの被験者によるEDAに基づく感情認識には、効果的な解決策が欠けている。
本稿では,個別のEDA特徴と外部から誘発される音楽特徴を融合させようとする。
そこで我々は,RTCAN-1D (Resternal temporal and channel attention network) というエンドツーエンドのマルチモーダル・フレームワークを提案する。
EDAの特徴については、新しい凸最適化に基づくEDA(CvxEDA)法を用いて、EDA信号をハッシュ信号とトニック信号に分解し、動的かつ定常な特徴をマイニングする。
EDAに基づく感情認識のためのチャネル時間的注意機構は、まず、時間的およびチャネル的表現を改善するために関与する。
音楽の特徴として,オープンソースツールキットopenSMILEを用いて音楽信号を処理し,外部特徴ベクトルを得る。
EDA信号からの個々の感情特徴と音楽からの外部感情ベンチマークは、分類層に融合する。
我々は,3つのマルチモーダルデータセット(PMEmo, DEAP, AMIGOS)を2クラス有声/覚醒感情認識のための系統比較を行った。
提案したRTCAN-1Dは、既存の最先端モデルよりも優れており、我々の研究が大規模感情認識のための信頼性と効率的なソリューションを提供することを示す。
私たちのコードはhttps://github.com/guanghaoyin/RTCAN-1Dで公開されています。
関連論文リスト
- Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis [2.1645626994550664]
連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワーク Emotion-Agent を提案する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
論文 参考訳(メタデータ) (2024-08-22T04:29:25Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Investigating EEG-Based Functional Connectivity Patterns for Multimodal
Emotion Recognition [8.356765961526955]
本稿では, 強度, クラスタリング, 係数, 固有ベクトル中心性という3つの機能接続ネットワーク特性について検討する。
感情認識における脳波接続機能の識別能力は,3つの公開脳波データセットで評価される。
脳波の機能的接続特徴と眼球運動や生理的信号の特徴を組み合わせたマルチモーダル感情認識モデルを構築した。
論文 参考訳(メタデータ) (2020-04-04T16:51:56Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。