論文の概要: PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.01442v1
- Date: Mon, 01 Dec 2025 09:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.778675
- Title: PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis
- Title(参考訳): PSA-MF:マルチモーダル・センシティメント分析のためのパーソナリティ・センシティメントアライメント型マルチレベルフュージョン
- Authors: Heng Xie, Kang Zhu, Zhengqi Wen, Jianhua Tao, Xuefei Liu, Ruibo Fu, Changsheng Li,
- Abstract要約: 主な課題は、さまざまなモダリティから感情関連情報を統合することである。
既存の手法では, 抽出段階における一方向特徴からのみ浅部情報を抽出する。
人格感に整合した多段階融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.114391204008875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) is a research field that recognizes human sentiments by combining textual, visual, and audio modalities. The main challenge lies in integrating sentiment-related information from different modalities, which typically arises during the unimodal feature extraction phase and the multimodal feature fusion phase. Existing methods extract only shallow information from unimodal features during the extraction phase, neglecting sentimental differences across different personalities. During the fusion phase, they directly merge the feature information from each modality without considering differences at the feature level. This ultimately affects the model's recognition performance. To address this problem, we propose a personality-sentiment aligned multi-level fusion framework. We introduce personality traits during the feature extraction phase and propose a novel personality-sentiment alignment method to obtain personalized sentiment embeddings from the textual modality for the first time. In the fusion phase, we introduce a novel multi-level fusion method. This method gradually integrates sentimental information from textual, visual, and audio modalities through multimodal pre-fusion and a multi-level enhanced fusion strategy. Our method has been evaluated through multiple experiments on two commonly used datasets, achieving state-of-the-art results.
- Abstract(参考訳): マルチモーダル感情分析(Multimodal sentiment analysis、MSA)は、テキスト、ビジュアル、オーディオのモダリティを組み合わせることで人間の感情を認識する研究分野である。
主な課題は、異なるモダリティからの感情関連情報を統合することであり、これは典型的には、一助的特徴抽出フェーズと多モーダル的特徴融合フェーズの間に生じる。
既存の方法は、抽出段階における一助的特徴からのみ浅い情報を抽出し、異なる個人性に対する感情差を無視する。
融合フェーズの間、各モードからの特徴情報を特徴レベルでの差を考慮せずに直接マージする。
これは最終的にモデルの認識性能に影響を及ぼす。
この問題に対処するために,人格感に整合した多段階融合フレームワークを提案する。
特徴抽出段階における個性特性を導入し,テキストのモダリティからパーソナライズされた感情の埋め込みを初めて得るための,新しい個性感覚アライメント手法を提案する。
核融合段階では、新しい多層核融合法を導入する。
本手法は,マルチモーダル・プレフュージョンとマルチレベル・エンハンスメント・フュージョン・ストラテジーを通じて,テキスト・ビジュアル・オーディオモダリティからの感情情報を徐々に統合する。
提案手法は,2つの一般的なデータセットに対する複数の実験により評価され,最先端の結果が得られた。
関連論文リスト
- DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis [62.31018417955254]
DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
論文 参考訳(メタデータ) (2025-04-15T11:28:02Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。