論文の概要: Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding
- arxiv url: http://arxiv.org/abs/2509.15476v1
- Date: Thu, 18 Sep 2025 22:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.928784
- Title: Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding
- Title(参考訳): 音声サルカズム理解に基づく多モーダル大言語モデルの評価
- Authors: Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler,
- Abstract要約: サーカスムの検出は、自然言語理解において依然として課題である。
我々は,大言語モデル(LLM)と多モーダルLLMを,英語と中国語の皮肉検出のために体系的に評価した。
- 参考スコア(独自算出の注目度): 19.632399543819382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sarcasm detection remains a challenge in natural language understanding, as sarcastic intent often relies on subtle cross-modal cues spanning text, speech, and vision. While prior work has primarily focused on textual or visual-textual sarcasm, comprehensive audio-visual-textual sarcasm understanding remains underexplored. In this paper, we systematically evaluate large language models (LLMs) and multimodal LLMs for sarcasm detection on English (MUStARD++) and Chinese (MCSD 1.0) in zero-shot, few-shot, and LoRA fine-tuning settings. In addition to direct classification, we explore models as feature encoders, integrating their representations through a collaborative gating fusion module. Experimental results show that audio-based models achieve the strongest unimodal performance, while text-audio and audio-vision combinations outperform unimodal and trimodal models. Furthermore, MLLMs such as Qwen-Omni show competitive zero-shot and fine-tuned performance. Our findings highlight the potential of MLLMs for cross-lingual, audio-visual-textual sarcasm understanding.
- Abstract(参考訳): 皮肉な意図は、しばしばテキスト、スピーチ、ビジョンにまたがる微妙なクロスモーダルな手がかりに依存している。
以前の研究は主にテキストまたはビジュアル・テキスト・サルカズムに焦点を当ててきたが、包括的オーディオ・ビジュアル・テキスト・サルカズム理解はいまだ研究されていない。
本稿では,英語(MUStARD++)と中国語(MCSD 1.0)の音素検出のための大規模言語モデル(LLM)とマルチモーダルLLMを,ゼロショット,少数ショット,ロラファインチューニング設定で体系的に評価する。
直接分類に加えて,モデルを特徴エンコーダとして探索し,それらの表現を協調ゲーティング融合モジュールを通じて統合する。
実験結果から,音声ベースモデルが最も高い単調性能を実現し,テキストオーディオとオーディオビジョンの組み合わせは単調モデルと三調モデルよりも優れていた。
さらに、Qwen-OmniのようなMLLMは、競争力のあるゼロショットと微調整性能を示す。
本研究は,MLLMの言語間・音声・視覚・テクスチュアル・サルカズム理解の可能性を明らかにするものである。
関連論文リスト
- Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.863320201956963]
サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。
マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。
深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T17:05:11Z) - Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models [10.47267683821842]
サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
論文 参考訳(メタデータ) (2025-03-24T13:53:00Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。