論文の概要: D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning
- arxiv url: http://arxiv.org/abs/2509.06771v1
- Date: Mon, 08 Sep 2025 14:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.201948
- Title: D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning
- Title(参考訳): D-HUMOR:マルチモーダルなオープンエンド推論による暗風理解
- Authors: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar,
- Abstract要約: オンラインミームにおけるダークユーモアは、暗黙の、敏感で、文化的に文脈的な手がかりに依存しているため、ユニークな課題を提起する。
ダークユーモア、ターゲットカテゴリー(性、メンタルヘルス、暴力、人種、障害など)、および3レベルの強度評価のための4,379のミームを新たに導入した。
本稿では,まず,大規模視覚言語モデルを用いて,各ミームの構造的説明を生成する推論拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.561044673225099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dark humor in online memes poses unique challenges due to its reliance on implicit, sensitive, and culturally contextual cues. To address the lack of resources and methods for detecting dark humor in multimodal content, we introduce a novel dataset of 4,379 Reddit memes annotated for dark humor, target category (gender, mental health, violence, race, disability, and other), and a three-level intensity rating (mild, moderate, severe). Building on this resource, we propose a reasoning-augmented framework that first generates structured explanations for each meme using a Large Vision-Language Model (VLM). Through a Role-Reversal Self-Loop, VLM adopts the author's perspective to iteratively refine its explanations, ensuring completeness and alignment. We then extract textual features from both the OCR transcript and the self-refined reasoning via a text encoder, while visual features are obtained using a vision transformer. A Tri-stream Cross-Reasoning Network (TCRNet) fuses these three streams, text, image, and reasoning, via pairwise attention mechanisms, producing a unified representation for classification. Experimental results demonstrate that our approach outperforms strong baselines across three tasks: dark humor detection, target identification, and intensity prediction. The dataset, annotations, and code are released to facilitate further research in multimodal humor understanding and content moderation. Code and Dataset are available at: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Rea soning
- Abstract(参考訳): オンラインミームにおけるダークユーモアは、暗黙の、敏感で、文化的に文脈的な手がかりに依存しているため、ユニークな課題を提起する。
マルチモーダルコンテンツにおけるダークユーモアを検出するためのリソースや方法の欠如に対処するために、ダークユーモアに注釈を付けた4,379のRedditミーム、ターゲットカテゴリー(性、メンタルヘルス、暴力、人種、障害など)、および3レベルのインテンシティ評価(マイルド、中等度、重度)のデータセットを導入する。
そこで本研究では,まず,大規模視覚言語モデル (Large Vision-Language Model, VLM) を用いて,各ミームの構造的説明を生成する推論拡張フレームワークを提案する。
Role-Reversal Self-Loopを通じて、VLMは著者の視点を採用し、その説明を反復的に洗練し、完全性と整合性を確保する。
次に,テキストエンコーダを用いて,OCR文字と自己修正推論の両方からテキスト特徴を抽出し,視覚的特徴を視覚変換器を用いて取得する。
Tri-stream Cross-Reasoning Network (TCRNet)はこれら3つのストリーム、テキスト、画像、推論をペアの注意機構を介して融合し、分類のための統一表現を生成する。
実験の結果,提案手法はダークユーモアの検出,ターゲット同定,強度予測という3つのタスクにおいて,強いベースラインを達成できた。
データセット、アノテーション、コードは、マルチモーダルユーモアの理解とコンテンツモデレーションのさらなる研究を促進するためにリリースされている。
https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Understanding-via-Multimodal-Open-ended-Reasoning
関連論文リスト
- Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning [26.546646866501735]
有害ミーム検出のための新しいフレームワークであるU-CoT+を紹介する。
まず,視覚的ミームを詳細なテキスト記述に変換する高忠実度ミーム・トゥ・テキストパイプラインを開発する。
この設計は、ミームの解釈をミーム分類から切り離し、複雑な生の視覚的内容に対する即時推論を避ける。
論文 参考訳(メタデータ) (2025-06-10T06:10:45Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension [69.73137587705646]
マルチモーダルなtextbfPunchline comprehension textbfPunchBenchmark を導入する。
評価精度を高めるために、原文のキャプションを変更して、同義語と無称のキャプションを生成する。
そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2024-12-16T15:52:59Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。