論文の概要: A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07565v1
- Date: Mon, 12 Jan 2026 14:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.42967
- Title: A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたエキスパートガイド型マルチモーダルフュージョンによる感情認識・感情分析のための統一フレームワーク
- Authors: Jiaqi Qiao, Xiujuan Xu, Xinran Li, Yu Liu,
- Abstract要約: 本稿では,エキスパート誘導型マルチモーダル融合と大規模言語モデルを組み合わせた統合フレームワーク EGMF を提案する。
提案手法では, 微妙な感情的ニュアンスに対するきめ細かなローカルエキスパート, クロスモーダルな関係に対する意味的相関の専門家, 長距離依存に対するグローバルなコンテキストエキスパートの3つの専門的ネットワークを特徴とする。
- 参考スコア(独自算出の注目度): 16.195689085967004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion understanding requires effective integration of text, audio, and visual modalities for both discrete emotion recognition and continuous sentiment analysis. We present EGMF, a unified framework combining expert-guided multimodal fusion with large language models. Our approach features three specialized expert networks--a fine-grained local expert for subtle emotional nuances, a semantic correlation expert for cross-modal relationships, and a global context expert for long-range dependencies--adaptively integrated through hierarchical dynamic gating for context-aware feature selection. Enhanced multimodal representations are integrated with LLMs via pseudo token injection and prompt-based conditioning, enabling a single generative framework to handle both classification and regression through natural language generation. We employ LoRA fine-tuning for computational efficiency. Experiments on bilingual benchmarks (MELD, CHERMA, MOSEI, SIMS-V2) demonstrate consistent improvements over state-of-the-art methods, with superior cross-lingual robustness revealing universal patterns in multimodal emotional expressions across English and Chinese. We will release the source code publicly.
- Abstract(参考訳): マルチモーダル感情理解には、離散的な感情認識と連続的な感情分析の両方のために、テキスト、音声、視覚的モダリティの効果的な統合が必要である。
本稿では,エキスパート誘導型マルチモーダル融合と大規模言語モデルを組み合わせた統合フレームワーク EGMF を提案する。
提案手法では, 微妙な感情的ニュアンスの専門家, クロスモーダルな関係のセマンティック・コリレーション・エキスパート, 長距離依存のグローバル・コンテキスト・エキスパートの3つの専門的専門的ネットワークを, 階層的動的ゲーティングによるコンテキスト認識機能選択を通じて適応的に統合する。
拡張マルチモーダル表現は擬似トークン注入とプロンプトベースの条件付けによってLLMと統合され、自然言語生成による分類と回帰の両方を単一の生成フレームワークで処理できる。
計算効率にはLoRAファインチューニングを用いる。
バイリンガル・ベンチマーク(MELD, CHERMA, MOSEI, SIMS-V2)の実験は、最先端の手法よりも一貫した改善を示し、より優れた言語間ロバスト性により、英語と中国語のマルチモーダル感情表現における普遍的なパターンが示される。
ソースコードを公開します。
関連論文リスト
- ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge [5.217410271468519]
我々は,MER2025コンペティションにおけるMER-SEMI課題に,新しいマルチモーダル感情認識フレームワークを提案する。
大規模事前学習モデルを用いて視覚、音声、テキストのモダリティから情報的特徴を抽出する。
提案手法は,MER2025-SEMIデータセットのオフィシャルベースラインに対して,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-08-08T03:55:25Z) - MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。