論文の概要: Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2602.19585v1
- Date: Mon, 23 Feb 2026 08:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.723785
- Title: Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性解析のための三部分空間の絡み合い
- Authors: Chunlei Meng, Jiabin Luo, Zhenglin Yan, Zhenyu Yu, Rong Fu, Zhongxue Gan, Chun Ouyang,
- Abstract要約: マルチモーダル・センティメント・アナリティクスは、人間の感情を推測するために言語、視覚、音響のモダリティを統合する。
既存のほとんどの手法は、グローバルに共有される表現やモダリティ固有の特徴に焦点を合わせ、特定のモダリティペアによってのみ共有される信号を見渡す。
本稿では,特徴を3つの補空間に明示的に分解する三部分空間分散(TSD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.078832145240575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis (MSA) integrates language, visual, and acoustic modalities to infer human sentiment. Most existing methods either focus on globally shared representations or modality-specific features, while overlooking signals that are shared only by certain modality pairs. This limits the expressiveness and discriminative power of multimodal representations. To address this limitation, we propose a Tri-Subspace Disentanglement (TSD) framework that explicitly factorizes features into three complementary subspaces: a common subspace capturing global consistency, submodally-shared subspaces modeling pairwise cross-modal synergies, and private subspaces preserving modality-specific cues. To keep these subspaces pure and independent, we introduce a decoupling supervisor together with structured regularization losses. We further design a Subspace-Aware Cross-Attention (SACA) fusion module that adaptively models and integrates information from the three subspaces to obtain richer and more robust representations. Experiments on CMU-MOSI and CMU-MOSEI demonstrate that TSD achieves state-of-the-art performance across all key metrics, reaching 0.691 MAE on CMU-MOSI and 54.9% ACC-7 on CMU-MOSEI, and also transfers well to multimodal intent recognition tasks. Ablation studies confirm that tri-subspace disentanglement and SACA jointly enhance the modeling of multi-granular cross-modal sentiment cues.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、人間の感情を推測するために言語、視覚、音響のモダリティを統合する。
既存のほとんどの手法は、グローバルに共有される表現やモダリティ固有の特徴に焦点を合わせ、特定のモダリティペアによってのみ共有される信号を見渡す。
これはマルチモーダル表現の表現性と識別力を制限する。
この制限に対処するため,Tri-Subspace Disentanglement (TSD) フレームワークを提案し,機能を明確に3つの補完部分空間に分解する。
これらの部分空間を純粋かつ独立に維持するために、構造化された正規化損失と共に分離スーパーバイザを導入する。
さらに、よりリッチで堅牢な表現を得るために、3つのサブスペースからの情報を適応的にモデル化し統合するサブスペース・アウェア・クロス・アテンション(SACA)融合モジュールを設計する。
CMU-MOSI と CMU-MOSEI の実験では、TSD は CMU-MOSI では 0.691 MAE 、CMU-MOSEI では 54.9% ACC-7 に到達し、またマルチモーダルな意図認識タスクにもよく対応している。
アブレーション研究は、三部分空間のゆがみとSACAが、多粒性クロスモーダル感情のモデル化を共同で促進することを確認する。
関連論文リスト
- Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well [23.460400679372714]
MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。
BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-20T11:49:50Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。