論文の概要: Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection
- arxiv url: http://arxiv.org/abs/2511.06328v2
- Date: Fri, 14 Nov 2025 14:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:01.784904
- Title: Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection
- Title(参考訳): モーダリティ最適化と動的一次モーダリティ選択によるマルチモーダ感性解析の改善
- Authors: Dingkang Yang, Mingcheng Li, Xuecheng Wu, Zhaoyu Chen, Kaixun Jiang, Keliang Liu, Peng Zhai, Lihua Zhang,
- Abstract要約: マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 54.10252086842123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis (MSA) aims to predict sentiment from language, acoustic, and visual data in videos. However, imbalanced unimodal performance often leads to suboptimal fused representations. Existing approaches typically adopt fixed primary modality strategies to maximize dominant modality advantages, yet fail to adapt to dynamic variations in modality importance across different samples. Moreover, non-language modalities suffer from sequential redundancy and noise, degrading model performance when they serve as primary inputs. To address these issues, this paper proposes a modality optimization and dynamic primary modality selection framework (MODS). First, a Graph-based Dynamic Sequence Compressor (GDC) is constructed, which employs capsule networks and graph convolution to reduce sequential redundancy in acoustic/visual modalities. Then, we develop a sample-adaptive Primary Modality Selector (MSelector) for dynamic dominance determination. Finally, a Primary-modality-Centric Cross-Attention (PCCA) module is designed to enhance dominant modalities while facilitating cross-modal interaction. Extensive experiments on four benchmark datasets demonstrate that MODS outperforms state-of-the-art methods, achieving superior performance by effectively balancing modality contributions and eliminating redundant noise.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
しかし、不均衡な単調なパフォーマンスは、しばしば準最適融合表現をもたらす。
既存のアプローチは通常、支配的なモダリティの利点を最大化するために固定された一次モダリティ戦略を採用するが、異なるサンプル間でのモダリティの重要性の動的変動に適応できない。
さらに、非言語モダリティは、逐次冗長性とノイズに悩まされ、一次入力として機能する際のモデル性能が低下する。
そこで本研究では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
まず、カプセルネットワークとグラフ畳み込みを利用して、音響・視覚モードの逐次冗長性を低減したグラフベースの動的シーケンス圧縮機(GDC)を構築した。
そこで我々は,動的支配決定のためのサンプル適応型プライマリモダリティセレクタ (MSelector) を開発した。
最後に,プライマリ・モダリティ・センター・クロス・アテンション (PCCA) モジュールは,クロス・モダリティの相互作用を促進しつつ,支配的なモダリティを高めるように設計されている。
4つのベンチマークデータセットの大規模な実験により、MODSは最先端の手法よりも優れており、モダリティの寄与を効果的にバランスさせ、余分なノイズを排除し、優れたパフォーマンスを実現している。
関連論文リスト
- Revisit Modality Imbalance at the Decision Layer [11.94300606032047]
マルチモーダル学習は、異なるモーダルからの情報を統合し、モデル性能を向上させる。
しばしばモダリティの不均衡に悩まされ、ジョイント最適化の間、支配的なモダリティは弱いモダリティを覆い隠す。
本稿では,表現学習において,このような不均衡が生じるだけでなく,決定層にも顕著に現れることを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T08:11:24Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation [7.441945494253697]
DMAF-Net(Dynamic Modality-Aware Fusion Network)と呼ばれる新しいモデルを提案する。
まず、欠落したモダリティ干渉を抑制するために、動的モダリティ・アウェア・フュージョン(DMAF)モジュールを導入する。
第二に、グローバルな特徴アライメントを強制するために、相乗的関係蒸留とプロトタイプ蒸留のフレームワークを設計する。
第3に、不均衡な損失率で最適化を安定化するための動的トレーニングモニタリング(DTM)戦略を提案する。
論文 参考訳(メタデータ) (2025-06-13T11:38:18Z) - EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。
任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。
最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文 参考訳(メタデータ) (2025-05-20T07:08:49Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。