論文の概要: Commander-GPT: Dividing and Routing for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2506.19420v1
- Date: Tue, 24 Jun 2025 08:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.558198
- Title: Commander-GPT: Dividing and Routing for Multimodal Sarcasm Detection
- Title(参考訳): Commander-GPT:マルチモーダルサーカスム検出のための分割とルーティング
- Authors: Yazhou Zhang, Chunwang Zou, Bo Wang, Jing Qin,
- Abstract要約: コマンド-GPT(Command-GPT)は、軍事コマンド理論にインスパイアされたモジュール型決定ルーティングフレームワークである。
我々のフレームワークは、最先端(SoTA)ベースラインよりもF1スコアが4.4%、11.7%向上している。
- 参考スコア(独自算出の注目度): 10.47267683821842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sarcasm understanding is a high-order cognitive task. Although large language models (LLMs) have shown impressive performance on many downstream NLP tasks, growing evidence suggests that they struggle with sarcasm understanding. In this paper, we propose Commander-GPT, a modular decision routing framework inspired by military command theory. Rather than relying on a single LLM's capability, Commander-GPT orchestrates a team of specialized LLM agents where each agent will be selectively assigned to a focused sub-task such as context modeling, sentiment analysis, etc. Their outputs are then routed back to the commander, which integrates the information and performs the final sarcasm judgment. To coordinate these agents, we introduce three types of centralized commanders: (1) a trained lightweight encoder-based commander (e.g., multi-modal BERT); (2) four small autoregressive language models, serving as moderately capable commanders (e.g., DeepSeek-VL); (3) two large LLM-based commander (Gemini Pro and GPT-4o) that performs task routing, output aggregation, and sarcasm decision-making in a zero-shot fashion. We evaluate Commander-GPT on the MMSD and MMSD 2.0 benchmarks, comparing five prompting strategies. Experimental results show that our framework achieves 4.4% and 11.7% improvement in F1 score over state-of-the-art (SoTA) baselines on average, demonstrating its effectiveness.
- Abstract(参考訳): マルチモーダルサルカズム理解は高次認知課題である。
大規模言語モデル (LLM) は、多くの下流のNLPタスクにおいて顕著な性能を示してきたが、それらが皮肉な理解に苦しむ証拠が増えている。
本稿では,軍事コマンド理論にヒントを得たモジュール型決定ルーティングフレームワークであるCommand-GPTを提案する。
単一のLLMの能力に頼るのではなく、Command-GPTは特殊なLLMエージェントのチームを編成し、各エージェントはコンテキストモデリングや感情分析など、集中したサブタスクに選択的に割り当てられる。
その後、その出力は指揮官に向けられ、情報を統合して最終的な皮肉判断を行う。
これらのエージェントを協調するために、(1)訓練された軽量エンコーダベースのコマンド(例えば、マルチモーダルBERT)、(2)適度に能力のあるコマンド(例えば、DeepSeek-VL)として機能する4つの小さな自己回帰言語モデル(例えば、DeepSeek-VL)、(3)タスクルーティング、出力アグリゲーション、そしてゼロショット方式で皮肉な意思決定を行う2つの大きなLCMベースのコマンド(Gemini ProとGPT-4o)を紹介する。
MMSDとMMSD 2.0のベンチマークでCommand-GPTを評価し、5つのプロンプト戦略を比較した。
実験結果から,本フレームワークは平均4.4%,11.7%向上し,その有効性を示した。
関連論文リスト
- Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models [10.47267683821842]
サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
論文 参考訳(メタデータ) (2025-03-24T13:53:00Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding [19.412462224847086]
異なるプロンプト手法を用いて,広く使用されている6つのベンチマークデータセットの評価を行った。
GPT-4 は様々なプロンプト法で他の LLM よりも一貫して著しく優れている。
ゼロショットIOプロンプト法は、ゼロショットIOと少数ショットCoTという2つの方法より優れている。
論文 参考訳(メタデータ) (2024-08-21T03:59:51Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。