論文の概要: Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.18681v1
- Date: Mon, 24 Mar 2025 13:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:11.309231
- Title: Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models
- Title(参考訳): Commander-GPT:マルチモーダル大言語モデルのSarcasm検出機能を完全に開放する
- Authors: Yazhou Zhang, Chunwang Zou, Bo Wang, Jing Qin,
- Abstract要約: サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
- 参考スコア(独自算出の注目度): 10.47267683821842
- License:
- Abstract: Sarcasm detection, as a crucial research direction in the field of Natural Language Processing (NLP), has attracted widespread attention. Traditional sarcasm detection tasks have typically focused on single-modal approaches (e.g., text), but due to the implicit and subtle nature of sarcasm, such methods often fail to yield satisfactory results. In recent years, researchers have shifted the focus of sarcasm detection to multi-modal approaches. However, effectively leveraging multi-modal information to accurately identify sarcastic content remains a challenge that warrants further exploration. Leveraging the powerful integrated processing capabilities of Multi-Modal Large Language Models (MLLMs) for various information sources, we propose an innovative multi-modal Commander-GPT framework. Inspired by military strategy, we first decompose the sarcasm detection task into six distinct sub-tasks. A central commander (decision-maker) then assigns the best-suited large language model to address each specific sub-task. Ultimately, the detection results from each model are aggregated to identify sarcasm. We conducted extensive experiments on MMSD and MMSD 2.0, utilizing four multi-modal large language models and six prompting strategies. Our experiments demonstrate that our approach achieves state-of-the-art performance, with a 19.3% improvement in F1 score, without necessitating fine-tuning or ground-truth rationales.
- Abstract(参考訳): 自然言語処理(NLP)分野における重要な研究方向として,サルカスム検出が注目されている。
従来のサルカズム検出タスクは、典型的には単一モーダルなアプローチ(例:テキスト)に重点を置いているが、サルカズムの暗黙的かつ微妙な性質のため、そのような手法は満足な結果を得ることができないことが多い。
近年、研究者は皮肉検出の焦点をマルチモーダルなアプローチにシフトしている。
しかし、効果的にマルチモーダル情報を活用して皮肉なコンテンツを正確に識別することは、さらなる探索を保証している課題である。
MLLM(Multi-Modal Large Language Models)の強力な統合処理機能を様々な情報ソースに適用し、革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
最終的に、各モデルからの検出結果を集約して、皮肉を識別する。
MMSDとMMSD 2.0について,多モーダル大言語モデルと6つのプロンプト戦略を用いて広範な実験を行った。
実験の結果,F1のスコアは19.3%向上し,微調整や地味合理性は不要であった。
関連論文リスト
- Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding [19.412462224847086]
異なるプロンプト手法を用いて,広く使用されている6つのベンチマークデータセットの評価を行った。
GPT-4 は様々なプロンプト法で他の LLM よりも一貫して著しく優れている。
ゼロショットIOプロンプト法は、ゼロショットIOと少数ショットCoTという2つの方法より優れている。
論文 参考訳(メタデータ) (2024-08-21T03:59:51Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System [57.650338588086186]
本稿では,MMSDの欠点を修正する補正データセットMMSD2.0を紹介する。
マルチビューCLIPと呼ばれる,複数視点から多粒度キューを活用可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:22:51Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。