論文の概要: Multi-Modal Sentiment Analysis with Dynamic Attention Fusion
- arxiv url: http://arxiv.org/abs/2509.22729v1
- Date: Thu, 25 Sep 2025 09:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.829499
- Title: Multi-Modal Sentiment Analysis with Dynamic Attention Fusion
- Title(参考訳): ダイナミックアテンションフュージョンを用いたマルチモーダル感度解析
- Authors: Sadia Abdulhalim, Muaz Albaghdadi, Moshiur Farazi,
- Abstract要約: 本稿では,事前学習した言語モデルからの凍結したテキスト埋め込みと音声エンコーダの音響的特徴を組み合わせた軽量フレームワークである動的注意融合(DAF)を紹介する。
提案するDAFモデルは,大規模なマルチモーダルベンチマークにおいて,静的核融合と非モードベースラインの両方を一貫して上回っている。
言語情報と非言語情報を効果的に統合することにより、我々のアプローチは感情予測のためのより堅牢な基盤を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional sentiment analysis has long been a unimodal task, relying solely on text. This approach overlooks non-verbal cues such as vocal tone and prosody that are essential for capturing true emotional intent. We introduce Dynamic Attention Fusion (DAF), a lightweight framework that combines frozen text embeddings from a pretrained language model with acoustic features from a speech encoder, using an adaptive attention mechanism to weight each modality per utterance. Without any finetuning of the underlying encoders, our proposed DAF model consistently outperforms both static fusion and unimodal baselines on a large multimodal benchmark. We report notable gains in F1-score and reductions in prediction error and perform a variety of ablation studies that support our hypothesis that the dynamic weighting strategy is crucial for modeling emotionally complex inputs. By effectively integrating verbal and non-verbal information, our approach offers a more robust foundation for sentiment prediction and carries broader impact for affective computing applications -- from emotion recognition and mental health assessment to more natural human computer interaction.
- Abstract(参考訳): 従来の感情分析は、テキストのみに依存して、長い間、一過性のタスクだった。
このアプローチは、真の感情的な意図を捉えるのに不可欠な声調や韻律のような非言語的な手がかりを見落としている。
本研究では,事前学習した言語モデルからの凍結したテキスト埋め込みと音声エンコーダの音響的特徴を組み合わせた軽量なフレームワークである動的注意融合(DAF)を紹介し,発話毎のモータリティを重み付けするアダプティブアテンション機構を用いた。
基礎となるエンコーダを微調整することなく、提案するDAFモデルは、大規模なマルチモーダルベンチマークにおいて、静的融合と非モードベースラインの両方を一貫して上回っている。
我々はF1スコアの顕著な向上と予測誤差の低減を報告し、感情的に複雑な入力をモデル化するために動的重み付け戦略が不可欠であるという仮説を支持する様々なアブレーション研究を行った。
言語情報と非言語情報を効果的に統合することにより、私たちのアプローチは感情予測のためのより堅牢な基盤を提供し、感情認識やメンタルヘルスアセスメントからより自然な人間のコンピュータインタラクションに至るまで、感情的コンピューティングアプリケーションに幅広い影響を与えます。
関連論文リスト
- Dynamic Fusion Multimodal Network for SpeechWellness Detection [7.169178956727836]
自殺は青年期の死因の1つである。
これまでの自殺リスク予測研究は、主に単独でテキスト情報と音響情報の両方に焦点を当ててきた。
音声検出のための動的融合機構に基づく軽量マルチブランチマルチモーダルシステムについて検討する。
論文 参考訳(メタデータ) (2025-08-25T14:18:12Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Incorporating Dynamic Semantics into Pre-Trained Language Model for
Aspect-based Sentiment Analysis [67.41078214475341]
ABSAの動的アスペクト指向セマンティクスを学ぶために,DR-BERT(Dynamic Re-weighting BERT)を提案する。
具体的には、まずStack-BERT層を主エンコーダとして、文の全体的な意味を理解する。
次に、軽量な動的再重み付けアダプタ(DRA)を導入して微調整する。
論文 参考訳(メタデータ) (2022-03-30T14:48:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。