論文の概要: Centering Emotion Hotspots: Multimodal Local-Global Fusion and Cross-Modal Alignment for Emotion Recognition in Conversations
- arxiv url: http://arxiv.org/abs/2510.08606v1
- Date: Tue, 07 Oct 2025 10:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.105205
- Title: Centering Emotion Hotspots: Multimodal Local-Global Fusion and Cross-Modal Alignment for Emotion Recognition in Conversations
- Title(参考訳): 中心的感情ホットスポット:会話における感情認識のためのマルチモーダルローカル・グローバル・フュージョンとクロスモーダルアライメント
- Authors: Yu Liu, Hanlei Shi, Haoxun Li, Yuqing Sun, Yuxuan Ding, Linlin Gong, Leyuan Qu, Taihao Li,
- Abstract要約: テキスト,音声,ビデオ中の発話毎のホットスポットを検出する統一モデルを提案する。
また,対話構造を符号化したクロスモーダルグラフであるMixture-of-Alignersを用いてモダリティを整列する。
われわれの結果は、将来のマルチモーダル学習を知らせるホットスポット中心の視点を示している。
- 参考スコア(独自算出の注目度): 15.71914834745408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion Recognition in Conversations (ERC) is hard because discriminative evidence is sparse, localized, and often asynchronous across modalities. We center ERC on emotion hotspots and present a unified model that detects per-utterance hotspots in text, audio, and video, fuses them with global features via Hotspot-Gated Fusion, and aligns modalities using a routed Mixture-of-Aligners; a cross-modal graph encodes conversational structure. This design focuses modeling on salient spans, mitigates misalignment, and preserves context. Experiments on standard ERC benchmarks show consistent gains over strong baselines, with ablations confirming the contributions of HGF and MoA. Our results point to a hotspot-centric view that can inform future multimodal learning, offering a new perspective on modality fusion in ERC.
- Abstract(参考訳): 会話における感情認識(ERC)は、識別的証拠が疎外され、局所化され、しばしばモダリティにわたって非同期であるため、困難である。
本研究では,感情ホットスポットに着目し,テキスト,音声,ビデオ中の発話毎のホットスポットを検出し,Hotspot-Gated Fusionを通じてグローバルな特徴を融合する統一モデルを提案する。
このデザインは、健全なスパンのモデリング、ミスアライメントの緩和、コンテキストの保存に焦点を当てている。
標準ERCベンチマークの実験では、強いベースラインよりも一貫した利得を示し、HGFとMoAの貢献を裏付けている。
この結果は,将来のマルチモーダル学習を示唆するホットスポット中心の視点を示し,ERCにおけるモダリティ融合の新たな視点を提供する。
関連論文リスト
- Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion [7.977094562068075]
そこで我々は,モダリティ特異的な動的拡張と構造的クロスモーダル融合を特徴とする,エンドツーエンドのグラフアテンションフレームワークSync-TVAを提案する。
本設計では,モダリティごとに動的拡張モジュールを組み込んで,テキスト,音声,視覚的特徴間の意味関係をモデル化する異質なクロスモーダルグラフを構築している。
MELDとIEMOCAPの実験では、特にクラス不均衡条件下では、精度と重み付けされたF1スコアの両方において、最先端モデルに対する一貫した改善が示されている。
論文 参考訳(メタデータ) (2025-07-29T00:03:28Z) - Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。