論文の概要: PaSE: Prototype-aligned Calibration and Shapley-based Equilibrium for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2511.17585v2
- Date: Tue, 25 Nov 2025 07:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.363372
- Title: PaSE: Prototype-aligned Calibration and Shapley-based Equilibrium for Multimodal Sentiment Analysis
- Title(参考訳): PaSE:マルチモーダル感性分析のためのプロトタイプ整列校正とシェープリーに基づく平衡
- Authors: Kang He, Boyu Chen, Yuzhe Ding, Fei Li, Chong Teng, Donghong Ji,
- Abstract要約: マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚信号を統合することで人間の感情を理解しようとする。
融合は相互の相補性を活用するように設計されているが、現実のシナリオはしばしばモダリティの競合を示し、最適以下の性能をもたらす。
提案するPaSEは,モダリティ競争を緩和しつつ協調性を向上する,新しいプロトタイプ・アライメントおよびシェープ最適化平衡フレームワークである。
- 参考スコア(独自算出の注目度): 31.00188332046888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Sentiment Analysis (MSA) seeks to understand human emotions by integrating textual, acoustic, and visual signals. Although multimodal fusion is designed to leverage cross-modal complementarity, real-world scenarios often exhibit modality competition: dominant modalities tend to overshadow weaker ones, leading to suboptimal performance. In this paper, we propose PaSE, a novel Prototype-aligned Calibration and Shapley-optimized Equilibrium framework, which enhances collaboration while explicitly mitigating modality competition. PaSE first applies Prototype-guided Calibration Learning (PCL) to refine unimodal representations and align them through an Entropic Optimal Transport mechanism that ensures semantic consistency. To further stabilize optimization, we introduce a Dual-Phase Optimization strategy. A prototype-gated fusion module is first used to extract shared representations, followed by Shapley-based Gradient Modulation (SGM), which adaptively adjusts gradients according to the contribution of each modality. Extensive experiments on IEMOCAP, MOSI, and MOSEI confirm that PaSE achieves the superior performance and effectively alleviates modality competition.
- Abstract(参考訳): マルチモーダル感覚分析(MSA)は、テキスト、音響、視覚信号を統合することで人間の感情を理解する。
マルチモーダル融合はクロスモーダルな相補性を活用するように設計されているが、実世界のシナリオはしばしばモダリティの競合を示す。
本稿では,モダリティ競争を緩和しつつ協調性を向上する,新しいプロトタイプ整列校正とシェープ最適化平衡フレームワークPaSEを提案する。
PaSEはまずプロトタイプ誘導校正学習(PCL)を用いて、一助表現を洗練し、意味的整合性を保証するエントロピック最適輸送機構を通じてそれらを整列させる。
さらに最適化の安定化を図るため、Dual-Phase Optimization 戦略を導入する。
プロトタイプゲート融合モジュールは、まず共有表現を抽出するために使用され、次に、各モードの寄与に応じて勾配を適応的に調整するShapley-based Gradient Modulation (SGM) が続く。
IEMOCAP、MOSI、MOSEIの大規模な実験により、PaSEは優れた性能を達成し、モダリティ競争を効果的に緩和することを確認した。
関連論文リスト
- Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。