論文の概要: Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning
- arxiv url: http://arxiv.org/abs/2508.18322v1
- Date: Sun, 24 Aug 2025 13:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.525589
- Title: Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning
- Title(参考訳): セマンティックス:グラフコントラスト学習によるマルチモーダル融合
- Authors: Jiangfeng Sun, Sihao He, Zhonghong Ou, Meina Song,
- Abstract要約: SSU(Structure-Semantic Unifier)と呼ばれる新しいフレームワークを提案する。
SSUは、モダリティ固有の構造情報と、拡張マルチモーダル表現のためのクロスモーダルセマンティックグラウンドを統合している。
SSUは一貫して最先端の性能を実現し、計算オーバーヘッドを大幅に削減する。
- 参考スコア(独自算出の注目度): 8.187594234413568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) aims to infer emotional states by effectively integrating textual, acoustic, and visual modalities. Despite notable progress, existing multimodal fusion methods often neglect modality-specific structural dependencies and semantic misalignment, limiting their quality, interpretability, and robustness. To address these challenges, we propose a novel framework called the Structural-Semantic Unifier (SSU), which systematically integrates modality-specific structural information and cross-modal semantic grounding for enhanced multimodal representations. Specifically, SSU dynamically constructs modality-specific graphs by leveraging linguistic syntax for text and a lightweight, text-guided attention mechanism for acoustic and visual modalities, thus capturing detailed intra-modal relationships and semantic interactions. We further introduce a semantic anchor, derived from global textual semantics, that serves as a cross-modal alignment hub, effectively harmonizing heterogeneous semantic spaces across modalities. Additionally, we develop a multiview contrastive learning objective that promotes discriminability, semantic consistency, and structural coherence across intra- and inter-modal views. Extensive evaluations on two widely used benchmark datasets, CMU-MOSI and CMU-MOSEI, demonstrate that SSU consistently achieves state-of-the-art performance while significantly reducing computational overhead compared to prior methods. Comprehensive qualitative analyses further validate SSU's interpretability and its ability to capture nuanced emotional patterns through semantically grounded interactions.
- Abstract(参考訳): マルチモーダル感情分析 (MSA) は, テキスト, 音響, 視覚的モダリティを効果的に統合することにより, 感情状態を推測することを目的としている。
顕著な進歩にもかかわらず、既存のマルチモーダル融合法は、しばしばモダリティ固有の構造的依存関係や意味的ミスアライメントを無視し、その品質、解釈可能性、堅牢性を制限している。
これらの課題に対処するため,本研究では,モダリティ固有の構造情報を体系的に統合し,マルチモーダル表現を拡張するためのクロスモーダルなセマンティックグラウンドを構築する,構造意味統一(SSU)と呼ばれる新しいフレームワークを提案する。
具体的には、SSUは、テキストの言語構文と、音響的および視覚的モダリティのための軽量なテキスト誘導アテンションメカニズムを活用して、モーダリティ固有のグラフを動的に構築し、モーダリティ間の詳細な関係と意味的相互作用をキャプチャする。
さらに、グローバルテキストセマンティクスから派生したセマンティクスアンカーを導入し、モダリティ間の異質なセマンティクス空間を効果的に調和させるクロスモーダルアライメントハブとして機能する。
さらに,識別性,意味的整合性,構造的コヒーレンスをモーダル内およびモーダル間において促進する多視点コントラスト学習目標を開発する。
CMU-MOSIとCMU-MOSEIという2つの広く使われているベンチマークデータセットの大規模な評価は、SSUが一貫して最先端のパフォーマンスを実現し、従来の手法に比べて計算オーバーヘッドを著しく削減していることを示している。
包括的質的分析は、SSUの解釈可能性と、意味論的に基礎付けられた相互作用を通してニュアンス化された感情パターンを捉える能力をさらに検証する。
関連論文リスト
- Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。