Fugu-MT 論文翻訳(概要): Modulated Fusion using Transformer for Linguistic-Acoustic Emotion Recognition

論文の概要: Modulated Fusion using Transformer for Linguistic-Acoustic Emotion Recognition

arxiv url: http://arxiv.org/abs/2010.02057v1
Date: Mon, 5 Oct 2020 14:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 21:06:21.777474
Title: Modulated Fusion using Transformer for Linguistic-Acoustic Emotion Recognition
Title（参考訳）: 言語音響感情認識のためのトランスフォーマを用いた変調融合
Authors: Jean-Benoit Delbrouck and No\'e Tits and St\'ephane Dupont
Abstract要約: 本稿では,感情認識と感情分析のタスクに軽量で強力なソリューションを提供することを目的とする。我々のモチベーションは、トランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
参考スコア（独自算出の注目度）: 7.799182201815763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to bring a new lightweight yet powerful solution for the task of Emotion Recognition and Sentiment Analysis. Our motivation is to propose two architectures based on Transformers and modulation that combine the linguistic and acoustic inputs from a wide range of datasets to challenge, and sometimes surpass, the state-of-the-art in the field. To demonstrate the efficiency of our models, we carefully evaluate their performances on the IEMOCAP, MOSI, MOSEI and MELD dataset. The experiments can be directly replicated and the code is fully open for future researches.
Abstract（参考訳）: 本稿では,感情認識と感情分析のタスクに対して,新しい軽量かつ強力なソリューションを提案する。我々のモチベーションは、幅広いデータセットから言語的および音響的入力を組み合わせるトランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。モデルの有効性を実証するため,IEMOCAP,MOSI,MOSEI,MELDデータセットを用いて,その性能を慎重に評価した。実験は直接複製することができ、コードは将来の研究のために完全にオープンである。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文参考訳（メタデータ） (2024-10-29T01:35:17Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T13:10:46Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus [4.256247917850421]
本稿では、感情認識のためのモダリティ特化モデルの融合戦略について検討する。多モード核融合は、いずれかの単一モダリティに対して絶対的な4-9%の利得をもたらすことを示す。また,実生活のCEMOコーパスに対して,音声成分はテキスト情報よりも感情的な情報を符号化することが示唆された。
論文参考訳（メタデータ） (2023-06-12T13:43:20Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
Improving the Generalizability of Text-Based Emotion Detection by Leveraging Transformers with Psycholinguistic Features [27.799032561722893]
本稿では,両方向長短期記憶(BiLSTM)ネットワークと変換器モデル(BERT,RoBERTa)を併用したテキストベースの感情検出手法を提案する。提案したハイブリッドモデルでは,標準的なトランスフォーマーベースアプローチと比較して,分布外データへの一般化能力の向上が期待できる。
論文参考訳（メタデータ） (2022-12-19T13:58:48Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis [8.927538538637783]
本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。 Transformerアーキテクチャを使用するのに加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
論文参考訳（メタデータ） (2020-06-29T11:51:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。