論文の概要: MS-Mix: Unveiling the Power of Mixup for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2510.11579v1
- Date: Mon, 13 Oct 2025 16:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.451914
- Title: MS-Mix: Unveiling the Power of Mixup for Multimodal Sentiment Analysis
- Title(参考訳): MS-Mix:マルチモーダル感性分析のためのミックスアップのパワーを公開
- Authors: Hongyu Zhu, Lin Chen, Mounim A. El-Yacoubi, Mingsheng Shang,
- Abstract要約: マルチモーダル感性分析(MSA)は異種データソースからの情報を統合することで人間の感情を識別・解釈することを目的としている。
混合に基づく拡張は、一助課題の一般化を改善するが、MSAへの直接適用は重要な課題をもたらす。
マルチモーダル環境で自動的にサンプルミキシングを最適化する,適応的で感情に敏感な拡張フレームワークであるMS-Mixを提案する。
- 参考スコア(独自算出の注目度): 12.472954763643932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis (MSA) aims to identify and interpret human emotions by integrating information from heterogeneous data sources such as text, video, and audio. While deep learning models have advanced in network architecture design, they remain heavily limited by scarce multimodal annotated data. Although Mixup-based augmentation improves generalization in unimodal tasks, its direct application to MSA introduces critical challenges: random mixing often amplifies label ambiguity and semantic inconsistency due to the lack of emotion-aware mixing mechanisms. To overcome these issues, we propose MS-Mix, an adaptive, emotion-sensitive augmentation framework that automatically optimizes sample mixing in multimodal settings. The key components of MS-Mix include: (1) a Sentiment-Aware Sample Selection (SASS) strategy that effectively prevents semantic confusion caused by mixing samples with contradictory emotions. (2) a Sentiment Intensity Guided (SIG) module using multi-head self-attention to compute modality-specific mixing ratios dynamically based on their respective emotional intensities. (3) a Sentiment Alignment Loss (SAL) that aligns the prediction distributions across modalities, and incorporates the Kullback-Leibler-based loss as an additional regularization term to train the emotion intensity predictor and the backbone network jointly. Extensive experiments on three benchmark datasets with six state-of-the-art backbones confirm that MS-Mix consistently outperforms existing methods, establishing a new standard for robust multimodal sentiment augmentation. The source code is available at: https://github.com/HongyuZhu-s/MS-Mix.
- Abstract(参考訳): マルチモーダルセンチメント分析(MSA)は、テキスト、ビデオ、オーディオなどの異種データソースからの情報を統合することで、人間の感情を識別し、解釈することを目的としている。
ディープラーニングモデルはネットワークアーキテクチャ設計において進歩してきたが、マルチモーダルなアノテートされたデータが少ないため、非常に制限されている。
混合に基づく拡張は、単調なタスクの一般化を改善するが、MSAへの直接的適用は、重要な課題をもたらす: ランダムな混合は、感情を意識する混合機構の欠如により、しばしばラベルの曖昧さと意味的不整合を増幅する。
これらの問題を解決するために,マルチモーダル環境におけるサンプル混合を自動的に最適化する適応型感情感性拡張フレームワークMS-Mixを提案する。
1) サンプルと矛盾する感情を混合することによって生じる意味的混乱を効果的に防止する感性意識サンプル選択(SASS)戦略。
2) 多頭部自己注意を用いた感性インテンシティガイド(SIG)モジュールを用いて,感情的インテンシティに基づいて,モダリティ特異的ミキシング比を動的に計算した。
(3)感性アライメント・ロス(SAL)は、モダリティ間の予測分布を整列し、Kulback-Leiblerベースの損失を追加の正規化語として組み込んで、感情強度予測器とバックボーンネットワークを協調的にトレーニングする。
6つの最先端のバックボーンを持つ3つのベンチマークデータセットに対する大規模な実験により、MS-Mixは既存の手法を一貫して上回り、堅牢なマルチモーダル感情増強のための新しい標準を確立した。
ソースコードは、https://github.com/HongyuZhu-s/MS-Mix.comで入手できる。
関連論文リスト
- Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis [27.11612547025828]
textbfAdaptive textbfGated textbfFusion textbfNetwork。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
論文 参考訳(メタデータ) (2025-10-02T05:05:41Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [53.74701603784333]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning [1.912429179274357]
token Distillation for Expert Components を用いた textscFLUID-Flow-Latent Unified Integration を提案する。
textscFLUID は,(1) emphQ-transforms, 学習可能なクエリトークン, (2) コントラストアライメントによる相互整合を強制する2段階の融合スキーム, (3) 予測時の軽量でロードバランスのMixture-of-Experts の3要素に寄与する。
論文 参考訳(メタデータ) (2025-08-10T09:34:17Z) - MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-14T03:44:33Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。