論文の概要: IRONIC: Coherence-Aware Reasoning Chains for Multi-Modal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2505.16258v1
- Date: Thu, 22 May 2025 05:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.0653
- Title: IRONIC: Coherence-Aware Reasoning Chains for Multi-Modal Sarcasm Detection
- Title(参考訳): IRONIC:マルチモーダルサーカスム検出のためのコヒーレンス対応推論チェイン
- Authors: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee,
- Abstract要約: IRONICはマルチモーダル・コヒーレンス・リレーション(Multi-modal Coherence Relations)を利用したインコンテキスト学習フレームワークで,参照,類似,実用的な画像テキスト・リンクの解析を行う。
実験の結果,IRONICはゼロショットマルチモーダルサーカスム検出において最先端の性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 5.246809683975664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting figurative language such as sarcasm across multi-modal inputs presents unique challenges, often requiring task-specific fine-tuning and extensive reasoning steps. However, current Chain-of-Thought approaches do not efficiently leverage the same cognitive processes that enable humans to identify sarcasm. We present IRONIC, an in-context learning framework that leverages Multi-modal Coherence Relations to analyze referential, analogical and pragmatic image-text linkages. Our experiments show that IRONIC achieves state-of-the-art performance on zero-shot Multi-modal Sarcasm Detection across different baselines. This demonstrates the need for incorporating linguistic and cognitive insights into the design of multi-modal reasoning strategies. Our code is available at: https://github.com/aashish2000/IRONIC
- Abstract(参考訳): マルチモーダルな入力に対してサルカズムのような図形言語を解釈することは、しばしばタスク固有の微調整と広範囲な推論ステップを必要とする、ユニークな課題を示す。
しかし、現在のChain-of-Thoughtアプローチは、人間が皮肉を識別できる同じ認知プロセスを効率的に利用していない。
IRONICはマルチモーダル・コヒーレンス・リレーション(Multi-modal Coherence Relations)を利用したインコンテキスト学習フレームワークで,参照,類似,実用的な画像テキスト・リンクの解析を行う。
実験の結果、IRONICはゼロショットマルチモーダルサーカスム検出において、異なるベースラインをまたいで最先端の性能を達成することがわかった。
これは多モーダル推論戦略の設計に言語的および認知的な洞察を取り入れる必要性を示している。
私たちのコードは、https://github.com/aashish2000/IRONICで利用可能です。
関連論文リスト
- Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - When did you become so smart, oh wise one?! Sarcasm Explanation in
Multi-modal Multi-party Dialogues [27.884015521888458]
sarcastic conversationの談話構造について検討し、新しい課題であるSarcasm Explanation in Dialogue (SED)を提案する。
SEDは、風刺会話の自然言語説明を生成することを目的としている。
我々は、マルチモーダルなコンテキスト認識とグローバル情報融合モジュールであるMAFを提案し、それをWITSのベンチマークに利用する。
論文 参考訳(メタデータ) (2022-03-12T12:16:07Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。