論文の概要: Target-Augmented Shared Fusion-based Multimodal Sarcasm Explanation Generation
- arxiv url: http://arxiv.org/abs/2502.07391v1
- Date: Tue, 11 Feb 2025 09:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:48.080379
- Title: Target-Augmented Shared Fusion-based Multimodal Sarcasm Explanation Generation
- Title(参考訳): ターゲット拡大型共有核融合型マルチモーダルサーカスム記述生成
- Authors: Palaash Goel, Dushyant Singh Chauhan, Md Shad Akhtar,
- Abstract要約: サルカズム(英: Sarcasm)は、標的を固有の方法でからかおうとする言語現象である。
既存のシステムは、説明の生成においてサルカズムの標的の重要性を見落としている。
本稿では,TURBO と呼ばれる,ターゲット型シャレッド融合型サルカズム・エクスプラナティオンモデルを提案する。
- 参考スコア(独自算出の注目度): 16.101599737682527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm is a linguistic phenomenon that intends to ridicule a target (e.g., entity, event, or person) in an inherent way. Multimodal Sarcasm Explanation (MuSE) aims at revealing the intended irony in a sarcastic post using a natural language explanation. Though important, existing systems overlooked the significance of the target of sarcasm in generating explanations. In this paper, we propose a Target-aUgmented shaRed fusion-Based sarcasm explanatiOn model, aka. TURBO. We design a novel shared-fusion mechanism to leverage the inter-modality relationships between an image and its caption. TURBO assumes the target of the sarcasm and guides the multimodal shared fusion mechanism in learning intricacies of the intended irony for explanations. We evaluate our proposed TURBO model on the MORE+ dataset. Comparison against multiple baselines and state-of-the-art models signifies the performance improvement of TURBO by an average margin of $+3.3\%$. Moreover, we explore LLMs in zero and one-shot settings for our task and observe that LLM-generated explanation, though remarkable, often fails to capture the critical nuances of the sarcasm. Furthermore, we supplement our study with extensive human evaluation on TURBO's generated explanations and find them out to be comparatively better than other systems.
- Abstract(参考訳): サルカズム(英: Sarcasm)は、対象(実体、出来事、または人)を固有の方法でイライラしようとする言語現象である。
Multimodal Sarcasm Explanation (MuSE)は、自然言語の説明を用いて、皮肉な投稿で意図された皮肉を明らかにすることを目的としている。
重要なことではあるが、既存のシステムは、説明の生成においてサルカズムの標的の重要性を見落としていた。
本稿では,ShaRed fusion-based sarcasm explanatiOn model, akaを提案する。
TURBO!
画像とキャプション間のモダリティ間関係を利用した新しい共有融合機構を設計する。
TURBOはサルカズムの標的を仮定し、目的とする皮肉の複雑さを学習して説明するためにマルチモーダル共有融合機構を導出する。
提案したTURBOモデルをMORE+データセット上で評価する。
複数のベースラインと最先端モデルとの比較は、TURBOの平均マージンが$+3.3\%$であることを示す。
さらに, LLM をゼロ, ワンショットで探索し, LLM の生成した説明が目立ってはいるものの, サルカズムの致命的なニュアンスを捉えるのに失敗することが多いことを観察する。
さらに,本研究を,TURBOが生成した説明について広範囲な人的評価で補足し,他のシステムよりも比較的優れていることを示す。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Seeing Sarcasm Through Different Eyes: Analyzing Multimodal Sarcasm Perception in Large Vision-Language Models [18.15726815994039]
本稿では,既存のマルチモーダルサルカムデータセット上で,システマティックに設計されたプロンプトを用いた分析フレームワークを提案する。
以上の結果より,LVLMと同一モデル内における顕著な相違が認められた。
これらの結果は、サルカズムの主観性を強調することによってバイナリラベリングパラダイムに挑戦する。
論文 参考訳(メタデータ) (2025-03-15T14:10:25Z) - RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Semantic Extractor-Paraphraser based Abstractive Summarization [40.05739160204135]
本稿では,意味的重複を利用した抽出-パラフレーザーベース抽象要約システムを提案する。
私達のモデルはROUGE、METEORおよび単語の類似性(WMS)の点では最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-04T05:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。