論文の概要: Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton
- arxiv url: http://arxiv.org/abs/2403.11879v2
- Date: Thu, 21 Mar 2024 16:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:38:36.910400
- Title: Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton
- Title(参考訳): 単相多面体融合による情緒的偏見の予測
- Authors: Tobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André,
- Abstract要約: 第6回ワークショップ・コンペティション・アフェクティブ・ビヘイビア・アナリティクス(Affective Behavior Analysis in the-wild)の文脈における情緒的ミミリティ・インテンシティ(EMI)推定の方法論を提案する。
我々のアプローチは、包括的なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0フレームワークを利用して、幅広いオーディオ機能を抽出する。
- 参考スコア(独自算出の注目度): 6.1058750788332325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a methodology for the Emotional Mimicry Intensity (EMI) Estimation task within the context of the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild. Our approach leverages the Wav2Vec 2.0 framework, pre-trained on a comprehensive podcast dataset, to extract a broad range of audio features encompassing both linguistic and paralinguistic elements. We enhance feature representation through a fusion technique that integrates individual features with a global mean vector, introducing global contextual insights into our analysis. Additionally, we incorporate a pre-trained valence-arousal-dominance (VAD) module from the Wav2Vec 2.0 model. Our fusion employs a Long Short-Term Memory (LSTM) architecture for efficient temporal analysis of audio data. Utilizing only the provided audio data, our approach demonstrates significant improvements over the established baseline.
- Abstract(参考訳): 本研究では,第6回ワークショップおよび感情行動分析コンペティションにおける情緒的不安度(EMI)推定の方法論を提案する。
提案手法では,包括的ポッドキャストデータセットで事前学習したWav2Vec 2.0フレームワークを利用して,言語的およびパラ言語的要素を含む幅広い音声特徴を抽出する。
我々は,グローバルな平均ベクトルと個々の特徴を統合する融合手法により特徴表現を強化し,分析にグローバルな文脈的洞察を導入する。
さらに,Wav2Vec 2.0モデルから,事前学習したVAD(valence-arousal-dominance)モジュールを組み込んだ。
我々の融合では、音声データの時間的効率的な分析にLong Short-Term Memory (LSTM) アーキテクチャを採用している。
提案手法は,提供された音声データのみを利用することで,確立されたベースラインよりも大幅に改善されたことを示す。
関連論文リスト
- Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning [120.95150400119705]
GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:27:00Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。
LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。
実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。