論文の概要: MuVaC: AVariational Causal Framework for Multimodal Sarcasm Understanding in Dialogues
- arxiv url: http://arxiv.org/abs/2601.20451v1
- Date: Wed, 28 Jan 2026 10:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.89221
- Title: MuVaC: AVariational Causal Framework for Multimodal Sarcasm Understanding in Dialogues
- Title(参考訳): MuVaC:対話におけるマルチモーダルサルカズム理解のための変動因果関係フレームワーク
- Authors: Diandian Guo, Fangfang Yuan, Cong Cao, Xixun Lin, Chuan Zhou, Hao Peng, Yanan Cao, Yanbing Liu,
- Abstract要約: サーカスム解析にはマルチモーダルサルカスム検出(MSD)とマルチモーダルサルカスム説明(MuSE)が必要である
サルカズムを理解するための認知機構を模倣する変分因果推論フレームワークである MuVaC を提案する。
- 参考スコア(独自算出の注目度): 21.146757458620105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of sarcasm in multimodal dialogues on the social platforms presents a crucial yet challenging task for understanding the true intent behind online content. Comprehensive sarcasm analysis requires two key aspects: Multimodal Sarcasm Detection (MSD) and Multimodal Sarcasm Explanation (MuSE). Intuitively, the act of detection is the result of the reasoning process that explains the sarcasm. Current research predominantly focuses on addressing either MSD or MuSE as a single task. Even though some recent work has attempted to integrate these tasks, their inherent causal dependency is often overlooked. To bridge this gap, we propose MuVaC, a variational causal inference framework that mimics human cognitive mechanisms for understanding sarcasm, enabling robust multimodal feature learning to jointly optimize MSD and MuSE. Specifically, we first model MSD and MuSE from the perspective of structural causal models, establishing variational causal pathways to define the objectives for joint optimization. Next, we design an alignment-then-fusion approach to integrate multimodal features, providing robust fusion representations for sarcasm detection and explanation generation. Finally, we enhance the reasoning trustworthiness by ensuring consistency between detection results and explanations. Experimental results demonstrate the superiority of MuVaC in public datasets, offering a new perspective for understanding multimodal sarcasm.
- Abstract(参考訳): ソーシャルプラットフォーム上でのマルチモーダル対話における皮肉は、オンラインコンテンツの背後にある真の意図を理解する上で非常に難しい課題である。
総合的なサルカズム解析には、MSD(Multimodal Sarcasm Detection)とMuSE(Multimodal Sarcasm Explanation)の2つの重要な側面が必要である。
直感的には、検出の行為は、皮肉を説明する推論プロセスの結果である。
現在の研究は主に、MSD または MuSE を一つのタスクとして扱うことに焦点を当てている。
いくつかの最近の研究はこれらのタスクを統合することを試みているが、その固有の因果依存性はしばしば見過ごされている。
このギャップを埋めるため,本研究では,マルチモーダルな特徴学習によりMSDとMuSEを協調的に最適化する,人間の認知メカニズムを模倣した変分因果推論フレームワークであるMuVaCを提案する。
具体的には、まず構造因果モデルの観点からMSDとMuseをモデル化し、共同最適化の目的を定義するための変分因果経路を確立する。
次に,マルチモーダルな特徴を統合化するためのアライメント・アライメント・フュージョン・アプローチを設計し,サルカズム検出と説明生成のための堅牢な融合表現を提供する。
最後に、検出結果と説明との整合性を確保することにより、信頼性の推論を強化する。
実験により、公開データセットにおける MuVaC の優位性を示し、マルチモーダルサルカズムを理解するための新しい視点を提供する。
関連論文リスト
- Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.863320201956963]
サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。
マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。
深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T17:05:11Z) - Multi-View Incongruity Learning for Multimodal Sarcasm Detection [40.10921890527881]
マルチモーダルサルカズム検出(MSD)は下流の様々なタスクに不可欠である。
既存のMSD法は、素早い相関に依存する傾向がある。
本稿では,マルチモーダルサルカズム検出のためのコントラスト学習(MICL)によるマルチモーダルイングルリティの統合手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T10:29:36Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System [57.650338588086186]
本稿では,MMSDの欠点を修正する補正データセットMMSD2.0を紹介する。
マルチビューCLIPと呼ばれる,複数視点から多粒度キューを活用可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:22:51Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。