論文の概要: GSDNet: Revisiting Incomplete Multimodal-Diffusion from Graph Spectrum Perspective for Conversation Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.12325v1
- Date: Sat, 14 Jun 2025 03:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.802281
- Title: GSDNet: Revisiting Incomplete Multimodal-Diffusion from Graph Spectrum Perspective for Conversation Emotion Recognition
- Title(参考訳): GSDNet:会話感情認識のためのグラフスペクトルから見た不完全なマルチモーダル拡散の再検討
- Authors: Yuntao Shou, Jun Yao, Tao Meng, Wei Ai, Cen Chen, Keqin Li,
- Abstract要約: 会話におけるマルチモーダル感情認識は,複数の情報源からの発話情報を分析し,話者の感情状態を推定することを目的としている。
モダリティの欠如は、実用的なシナリオにおけるMERCの性能を著しく制限する。
本稿では,ガウス雑音をモダリティのグラフスペクトル空間にマッピングするグラフスペクトル拡散ネットワーク(GSDNet, Graph Spectral Diffusion Network)を提案する。
- 参考スコア(独自算出の注目度): 26.41302797345201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition in conversations (MERC) aims to infer the speaker's emotional state by analyzing utterance information from multiple sources (i.e., video, audio, and text). Compared with unimodality, a more robust utterance representation can be obtained by fusing complementary semantic information from different modalities. However, the modality missing problem severely limits the performance of MERC in practical scenarios. Recent work has achieved impressive performance on modality completion using graph neural networks and diffusion models, respectively. This inspires us to combine these two dimensions through the graph diffusion model to obtain more powerful modal recovery capabilities. Unfortunately, existing graph diffusion models may destroy the connectivity and local structure of the graph by directly adding Gaussian noise to the adjacency matrix, resulting in the generated graph data being unable to retain the semantic and topological information of the original graph. To this end, we propose a novel Graph Spectral Diffusion Network (GSDNet), which maps Gaussian noise to the graph spectral space of missing modalities and recovers the missing data according to its original distribution. Compared with previous graph diffusion methods, GSDNet only affects the eigenvalues of the adjacency matrix instead of destroying the adjacency matrix directly, which can maintain the global topological information and important spectral features during the diffusion process. Extensive experiments have demonstrated that GSDNet achieves state-of-the-art emotion recognition performance in various modality loss scenarios.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、複数の情報源(ビデオ、音声、テキストなど)からの発話情報を分析して話者の感情状態を推測することを目的としている。
一様性と比較すると、異なるモダリティから相補的意味情報を融合することで、より堅牢な発話表現を得ることができる。
しかし、モダリティの欠如は、実用シナリオにおけるMERCの性能を著しく制限する。
最近の研究は、それぞれグラフニューラルネットワークと拡散モデルを用いて、モダリティ補完に関する印象的な性能を達成している。
これにより、グラフ拡散モデルを通してこれらの2次元を組み合わせることで、より強力なモーダルリカバリ能力を得ることができます。
残念ながら、既存のグラフ拡散モデルは、隣接行列に直接ガウスノイズを付加することでグラフの接続性と局所構造を破壊する可能性があるため、生成されたグラフデータは元のグラフの意味的および位相的情報を保持できない。
そこで本研究では,ガウス雑音をモダリティの欠如したグラフスペクトル空間にマッピングし,その元の分布に従って欠落したデータを復元するグラフスペクトル拡散ネットワーク(GSDNet)を提案する。
従来のグラフ拡散法と比較して、GSDNetは隣接行列を直接破壊するのではなく、隣接行列の固有値にしか影響しない。
GSDNetは、様々なモダリティ損失シナリオにおいて、最先端の感情認識性能を達成することを実証した。
関連論文リスト
- Graffe: Graph Representation Learning via Diffusion Probabilistic Models [25.28957372847043]
本稿ではグラフ表現学習のための自己教師付き拡散モデルGraffeを紹介する。
ソースグラフをコンパクトな表現に蒸留するグラフエンコーダを特徴とし、拡散復号器の復号過程を導く条件として機能する。
論文 参考訳(メタデータ) (2025-05-08T05:38:19Z) - MAPN: Enhancing Heterogeneous Sparse Graph Representation by Mamba-based Asynchronous Aggregation [4.114908634432608]
本稿では,不均質なスパースグラフの表現を強化する,マンバを基盤とした非同期伝搬ネットワーク(MAPN)を提案する。
MAPNはノードシーケンス生成と意味情報集約という2つの主要コンポーネントから構成される。
多様なデータセットにわたる大規模な実験は、様々な下流タスクに対するグラフ埋め込みにおけるMAPNの有効性を示す。
論文 参考訳(メタデータ) (2025-02-23T06:02:31Z) - DiffGraph: Heterogeneous Graph Diffusion Model [16.65576765238224]
グラフニューラルネットワーク(GNN)は、グラフ構造化データモデリングに革命をもたらしたが、従来のGNNは、現実のシナリオで一般的な複雑な異種構造に苦戦している。
異種グラフ拡散モデル(DiffGraph)は,革新的なクロスビュー・デノベーション・ストラテジーを導入した先駆的なフレームワークである。
中心となるDiffGraphは、高度な遅延不均一グラフ拡散機構を備え、優れたノイズ管理のための新しい前方および後方拡散プロセスを実装している。
論文 参考訳(メタデータ) (2025-01-04T15:30:48Z) - Advancing Graph Generation through Beta Diffusion [49.49740940068255]
Graph Beta Diffusion (GBD)は、グラフデータの多様な性質を扱うために特別に設計された生成モデルである。
本稿では, 臨界グラフトポロジを安定化させることにより, 生成グラフの現実性を高める変調手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:42:57Z) - Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。
提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文 参考訳(メタデータ) (2024-01-12T17:57:07Z) - Supercharging Graph Transformers with Advective Diffusion [28.40109111316014]
本稿では,この課題に対処するために,物理に着想を得たグラフトランスモデルAdvDIFFormerを提案する。
本稿では,AdvDIFFormerが位相シフトによる一般化誤差を制御できることを示す。
経験的に、このモデルは情報ネットワーク、分子スクリーニング、タンパク質相互作用の様々な予測タスクにおいて優位性を示す。
論文 参考訳(メタデータ) (2023-10-10T08:40:47Z) - Dynamic Causal Explanation Based Diffusion-Variational Graph Neural
Network for Spatio-temporal Forecasting [60.03169701753824]
時間予測のための動的拡散型グラフニューラルネットワーク(DVGNN)を提案する。
提案したDVGNNモデルは最先端のアプローチよりも優れ,Root Mean Squared Errorの結果が優れている。
論文 参考訳(メタデータ) (2023-05-16T11:38:19Z) - Text Enriched Sparse Hyperbolic Graph Convolutional Networks [21.83127488157701]
グラフニューラルネットワーク(GNN)とその双曲型は、そのようなネットワークを低次元の潜在空間でエンコードするための有望なアプローチを提供する。
本稿では,グラフのメタパス構造を意味信号を用いて捉えるために,テキスト強化スパースハイパーボリックグラフ畳み込みネットワーク(TESH-GCN)を提案する。
我々のモデルは,リンク予測のタスクにおいて,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-06T00:23:35Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。