論文の概要: Modulated Fusion using Transformer for Linguistic-Acoustic Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2010.02057v1
- Date: Mon, 5 Oct 2020 14:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:06:21.777474
- Title: Modulated Fusion using Transformer for Linguistic-Acoustic Emotion
Recognition
- Title(参考訳): 言語音響感情認識のためのトランスフォーマを用いた変調融合
- Authors: Jean-Benoit Delbrouck and No\'e Tits and St\'ephane Dupont
- Abstract要約: 本稿では,感情認識と感情分析のタスクに軽量で強力なソリューションを提供することを目的とする。
我々のモチベーションは、トランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
- 参考スコア(独自算出の注目度): 7.799182201815763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to bring a new lightweight yet powerful solution for the task
of Emotion Recognition and Sentiment Analysis. Our motivation is to propose two
architectures based on Transformers and modulation that combine the linguistic
and acoustic inputs from a wide range of datasets to challenge, and sometimes
surpass, the state-of-the-art in the field. To demonstrate the efficiency of
our models, we carefully evaluate their performances on the IEMOCAP, MOSI,
MOSEI and MELD dataset. The experiments can be directly replicated and the code
is fully open for future researches.
- Abstract(参考訳): 本稿では,感情認識と感情分析のタスクに対して,新しい軽量かつ強力なソリューションを提案する。
我々のモチベーションは、幅広いデータセットから言語的および音響的入力を組み合わせるトランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
モデルの有効性を実証するため,IEMOCAP,MOSI,MOSEI,MELDデータセットを用いて,その性能を慎重に評価した。
実験は直接複製することができ、コードは将来の研究のために完全にオープンである。
関連論文リスト
- EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Exploring Attention Mechanisms for Multimodal Emotion Recognition in an
Emergency Call Center Corpus [4.256247917850421]
本稿では、感情認識のためのモダリティ特化モデルの融合戦略について検討する。
多モード核融合は、いずれかの単一モダリティに対して絶対的な4-9%の利得をもたらすことを示す。
また,実生活のCEMOコーパスに対して,音声成分はテキスト情報よりも感情的な情報を符号化することが示唆された。
論文 参考訳(メタデータ) (2023-06-12T13:43:20Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Improving the Generalizability of Text-Based Emotion Detection by
Leveraging Transformers with Psycholinguistic Features [27.799032561722893]
本稿では,両方向長短期記憶(BiLSTM)ネットワークと変換器モデル(BERT,RoBERTa)を併用したテキストベースの感情検出手法を提案する。
提案したハイブリッドモデルでは,標準的なトランスフォーマーベースアプローチと比較して,分布外データへの一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2022-12-19T13:58:48Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - A Transformer-based joint-encoding for Emotion Recognition and Sentiment
Analysis [8.927538538637783]
本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。
Transformerアーキテクチャを使用するのに加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
論文 参考訳(メタデータ) (2020-06-29T11:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。