論文の概要: MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations
- arxiv url: http://arxiv.org/abs/2510.24178v1
- Date: Tue, 28 Oct 2025 08:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.904847
- Title: MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations
- Title(参考訳): MuSaG: フルモーダルアノテーションを備えたマルチモーダルなドイツのSarcasmデータセット
- Authors: Aaron Scott, Maike Züfle, Jan Niehues,
- Abstract要約: サルカズム(英: Sarcasm)は、図形言語の複雑な形態であり、意図された意味が文字通りの意味と矛盾する。
ドイツの最初のマルチモーダルサルカズム検出データセットである MuSaG について述べる。
この番組は、ドイツのテレビ番組から33分間、手動で選抜され、人間による注釈が付けられている。
- 参考スコア(独自算出の注目度): 15.95945265244193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm is a complex form of figurative language in which the intended meaning contradicts the literal one. Its prevalence in social media and popular culture poses persistent challenges for natural language understanding, sentiment analysis, and content moderation. With the emergence of multimodal large language models, sarcasm detection extends beyond text and requires integrating cues from audio and vision. We present MuSaG, the first German multimodal sarcasm detection dataset, consisting of 33 minutes of manually selected and human-annotated statements from German television shows. Each instance provides aligned text, audio, and video modalities, annotated separately by humans, enabling evaluation in unimodal and multimodal settings. We benchmark nine open-source and commercial models, spanning text, audio, vision, and multimodal architectures, and compare their performance to human annotations. Our results show that while humans rely heavily on audio in conversational settings, models perform best on text. This highlights a gap in current multimodal models and motivates the use of MuSaG for developing models better suited to realistic scenarios. We release MuSaG publicly to support future research on multimodal sarcasm detection and human-model alignment.
- Abstract(参考訳): サルカズム(英: Sarcasm)は、図形言語の複雑な形態であり、意図された意味が文字通りの意味と矛盾する。
ソーシャルメディアや大衆文化におけるその流行は、自然言語理解、感情分析、コンテンツモデレーションに永続的な課題をもたらす。
マルチモーダルな大言語モデルが出現すると、サルカズム検出はテキストを超えて拡張され、オーディオと視覚の手がかりを統合する必要がある。
本稿では,ドイツ初のマルチモーダルサルカズム検出データセットであるMuSaGについて紹介する。
各インスタンスはアライメントされたテキスト、オーディオ、ビデオのモダリティを提供し、人間によって別々に注釈付けされ、非モーダルおよびマルチモーダル設定での評価を可能にする。
我々は、テキスト、オーディオ、ビジョン、マルチモーダルアーキテクチャにまたがる9つのオープンソースおよび商用モデルをベンチマークし、そのパフォーマンスと人間のアノテーションを比較した。
以上の結果から,人間は会話環境において音声に強く依存しているのに対し,モデルはテキスト上では最善であることがわかった。
これは現在のマルチモーダルモデルのギャップを強調し、現実的なシナリオに適したモデルを開発するための MuSaG の使用を動機付けている。
我々はMuSaGを一般公開し、マルチモーダルサルカズム検出と人間モデルアライメントの今後の研究を支援する。
関連論文リスト
- Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding [19.632399543819382]
サーカスムの検出は、自然言語理解において依然として課題である。
我々は,大言語モデル(LLM)と多モーダルLLMを,英語と中国語の皮肉検出のために体系的に評価した。
論文 参考訳(メタデータ) (2025-09-18T22:44:27Z) - VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - When did you become so smart, oh wise one?! Sarcasm Explanation in
Multi-modal Multi-party Dialogues [27.884015521888458]
sarcastic conversationの談話構造について検討し、新しい課題であるSarcasm Explanation in Dialogue (SED)を提案する。
SEDは、風刺会話の自然言語説明を生成することを目的としている。
我々は、マルチモーダルなコンテキスト認識とグローバル情報融合モジュールであるMAFを提案し、それをWITSのベンチマークに利用する。
論文 参考訳(メタデータ) (2022-03-12T12:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。