論文の概要: Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing
- arxiv url: http://arxiv.org/abs/2506.07086v1
- Date: Sun, 08 Jun 2025 11:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.667472
- Title: Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing
- Title(参考訳): 感性コンピューティングのためのモーダリティ間の類似性とコントラストを学習するための表現分解
- Authors: Yuanhe Tian, Pengsen Cheng, Guoqing Jin, Lei Zhang, Yan Song,
- Abstract要約: マルチモーダル感情コンピューティングは、画像やテキストなどの多様なデータソースから人間の態度を自動的に認識し、解釈することを目的としている。
本稿では,視覚的およびテキスト的表現を共有(モダリティ不変)およびモダリティ固有のコンポーネントに明示的に分解する,感情コンピューティングのための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.177541719713666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal affective computing aims to automatically recognize and interpret human attitudes from diverse data sources such as images and text, thereby enhancing human-computer interaction and emotion understanding. Existing approaches typically rely on unimodal analysis or straightforward fusion of cross-modal information that fail to capture complex and conflicting evidence presented across different modalities. In this paper, we propose a novel LLM-based approach for affective computing that explicitly deconstructs visual and textual representations into shared (modality-invariant) and modality-specific components. Specifically, our approach firstly encodes and aligns input modalities using pre-trained multi-modal encoders, then employs a representation decomposition framework to separate common emotional content from unique cues, and finally integrates these decomposed signals via an attention mechanism to form a dynamic soft prompt for a multi-modal LLM. Extensive experiments on three representative tasks for affective computing, namely, multi-modal aspect-based sentiment analysis, multi-modal emotion analysis, and hateful meme detection, demonstrate the effectiveness of our approach, which consistently outperforms strong baselines and state-of-the-art models.
- Abstract(参考訳): マルチモーダル感情コンピューティングは、画像やテキストなどの多様なデータソースから人間の態度を自動的に認識し、解釈することを目的としており、それによって人間とコンピュータの相互作用と感情の理解が向上する。
既存のアプローチは典型的には、様々なモダリティにまたがる複雑で矛盾する証拠を捉えるのに失敗する、単調な分析やクロスモーダル情報の直接的な融合に依存している。
本稿では、視覚的およびテキスト的表現を共有(モダリティ不変)およびモダリティ固有のコンポーネントに明示的に分解する、感情コンピューティングのための新しいLCMベースのアプローチを提案する。
具体的には、まず、事前訓練されたマルチモーダルエンコーダを用いて入力モダリティを符号化、調整し、次に表現分解フレームワークを用いて、共通の感情的コンテンツをユニークなキューから分離し、最後にこれらの分解信号をアテンション機構を介して統合し、マルチモーダルLLMの動的ソフトプロンプトを形成する。
マルチモーダルなアスペクトベース感情分析,マルチモーダルな感情分析,ヘイトフルなミーム検出という,情緒的コンピューティングにおける3つの代表的なタスクに関する広範な実験は,強いベースラインや最先端モデルよりも一貫して優れる我々のアプローチの有効性を実証している。
関連論文リスト
- Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。