論文の概要: Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2512.03521v1
- Date: Wed, 03 Dec 2025 07:26:33 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:04:09.113474
- Title: Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
- Title(参考訳): Cross-Space Synergy:会話におけるマルチモーダル感情認識のための統一フレームワーク
- Authors: Xiaosen Lyu, Jiayu Xiong, Yuren Chen, Wanlong Wang, Xiaoqing Dai, Jing Wang,
- Abstract要約: 会話におけるマルチモーダル感情認識は、テキスト、音響、視覚的手がかりを統合することで、話者の感情を予測することを目的としている。
既存のアプローチでは、複雑なクロスモーダルなインタラクションを捉えるのに苦労するか、勾配の衝突と不安定なトレーニングを経験する。
我々は、表現コンポーネントと最適化コンポーネントを結合したクロススペース構文(CSS)を提案する。
- 参考スコア(独自算出の注目度): 2.237205141501017
- License:
- Abstract: Multimodal Emotion Recognition in Conversation (MERC) aims to predict speakers' emotions by integrating textual, acoustic, and visual cues. Existing approaches either struggle to capture complex cross-modal interactions or experience gradient conflicts and unstable training when using deeper architectures. To address these issues, we propose Cross-Space Synergy (CSS), which couples a representation component with an optimization component. Synergistic Polynomial Fusion (SPF) serves the representation role, leveraging low-rank tensor factorization to efficiently capture high-order cross-modal interactions. Pareto Gradient Modulator (PGM) serves the optimization role, steering updates along Pareto-optimal directions across competing objectives to alleviate gradient conflicts and improve stability. Experiments show that CSS outperforms existing representative methods on IEMOCAP and MELD in both accuracy and training stability, demonstrating its effectiveness in complex multimodal scenarios.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、テキスト、音響、視覚的手がかりを統合することで、話者の感情を予測することを目的としている。
既存のアプローチでは、複雑なクロスモーダルなインタラクションを捉えるのに苦労したり、より深いアーキテクチャを使用する場合、グラデーションコンフリクトを経験したり、不安定なトレーニングを行う。
これらの問題に対処するために、最適化コンポーネントと表現コンポーネントを結合したクロススペース・シナジー(CSS)を提案する。
相乗的多項式核融合(SPF)は、高次クロスモーダル相互作用を効率的に捉えるために低ランクテンソル分解を利用する。
Pareto Gradient Modulator (PGM) は最適化の役割を担い、Pareto-Optimal方向の更新を競合する目標にわたって操り、勾配の衝突を緩和し、安定性を向上させる。
実験によると、CSSはIEMOCAPとMELDの既存の代表的メソッドを精度とトレーニングの安定性の両方で上回り、複雑なマルチモーダルシナリオにおいてその効果を示す。
関連論文リスト
- Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion [7.977094562068075]
そこで我々は,モダリティ特異的な動的拡張と構造的クロスモーダル融合を特徴とする,エンドツーエンドのグラフアテンションフレームワークSync-TVAを提案する。
本設計では,モダリティごとに動的拡張モジュールを組み込んで,テキスト,音声,視覚的特徴間の意味関係をモデル化する異質なクロスモーダルグラフを構築している。
MELDとIEMOCAPの実験では、特にクラス不均衡条件下では、精度と重み付けされたF1スコアの両方において、最先端モデルに対する一貫した改善が示されている。
論文 参考訳(メタデータ) (2025-07-29T00:03:28Z) - CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis [0.6961946145048322]
本稿では,Adaptive Multi-lossとProgressive Attention Fusionを用いた,エンドツーエンドのコントラスト学習フレームワークを提案する。
このフレームワークは、Progressive Attention Fusion Network、Multi-task Contrastive Learning、Adaptive Multi-loss Aggregationの3つの新しいモジュールで構成されている。
標準の公開ベンチマークによる評価は、CLAMPが既存の最先端技術よりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T11:49:57Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment [10.278127492434297]
本稿では、分散ベース、インスタンスベース、トークンベースのアライメントモジュールを含む包括的アプローチにより、MGCMA(Multi-Granularity Cross-Modal Alignment)フレームワークを紹介する。
IEMOCAPに関する実験により,提案手法が現状技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-30T09:30:41Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - EffMulti: Efficiently Modeling Complex Multimodal Interactions for
Emotion Analysis [8.941102352671198]
我々は感情分析過程を洗練させるために3種類の潜在表現を設計する。
これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合が提案されている。
実験の結果,EffMultiは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-16T03:05:55Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。