論文の概要: They Said Memes Were Harmless-We Found the Ones That Hurt: Decoding Jokes, Symbols, and Cultural References
- arxiv url: http://arxiv.org/abs/2602.03822v1
- Date: Tue, 03 Feb 2026 18:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.639145
- Title: They Said Memes Were Harmless-We Found the Ones That Hurt: Decoding Jokes, Symbols, and Cultural References
- Title(参考訳): ミームは無害だった-私たちは、ジョーク、シンボル、文化的な参照をデコードするものを発見
- Authors: Sahil Tripathi, Gautam Siddharth Kashyap, Mehwish Nasim, Jian Yang, Jiechao Gao, Usman Naseem,
- Abstract要約: 有害な意図は、しばしば暗黙の文化的象徴と横断的不一致に依存しているため、ミームに基づく社会的虐待の検出は困難である。
従来のアプローチでは、文化的な盲目(象徴的文脈を欠く)、境界曖昧さ(虐待と虐待の混同)、およびiv.解釈可能性の欠如という3つの要因に制限されていた。
CROSS-ALIGN+は,これらの制約に体系的に対処する3段階のフレームワークである。
- 参考スコア(独自算出の注目度): 25.739336118419914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meme-based social abuse detection is challenging because harmful intent often relies on implicit cultural symbolism and subtle cross-modal incongruence. Prior approaches, from fusion-based methods to in-context learning with Large Vision-Language Models (LVLMs), have made progress but remain limited by three factors: i) cultural blindness (missing symbolic context), ii) boundary ambiguity (satire vs. abuse confusion), and iii) lack of interpretability (opaque model reasoning). We introduce CROSS-ALIGN+, a three-stage framework that systematically addresses these limitations: (1) Stage I mitigates cultural blindness by enriching multimodal representations with structured knowledge from ConceptNet, Wikidata, and Hatebase; (2) Stage II reduces boundary ambiguity through parameter-efficient LoRA adapters that sharpen decision boundaries; and (3) Stage III enhances interpretability by generating cascaded explanations. Extensive experiments on five benchmarks and eight LVLMs demonstrate that CROSS-ALIGN+ consistently outperforms state-of-the-art methods, achieving up to 17% relative F1 improvement while providing interpretable justifications for each decision.
- Abstract(参考訳): 有害な意図は、しばしば暗黙の文化的象徴と微妙な横断的不一致に依存しているため、ミームに基づく社会的虐待の検出は困難である。
従来のアプローチでは、融合方式からLVLM(Large Vision-Language Models)を用いたインコンテキスト学習まで、進歩したが、3つの要因で制限が保たれている。
一 文化的盲目(象徴的文脈を欠くこと)
二 曖昧さ(虐待と虐待の混同)及び
三 解釈可能性の欠如(奇異なモデル推論)
CROSS-ALIGN+は,(1)概念ネット,Wikidata,Hatebaseからの構造化知識による多様表現の強化による文化的盲点の緩和,(2)決定境界を鋭くするパラメータ効率のよいLoRAアダプタによる境界あいまいさの低減,(3)ステージIIIはケースド説明の生成による解釈性の向上,という3段階の枠組みを体系的に導入する。
5つのベンチマークと8つのLVLMに関する大規模な実験により、CROSS-ALIGN+は最先端の手法よりも一貫して優れており、各決定に対して解釈可能な正当性を提供しながら、最大17%の相対的なF1改善を実現している。
関連論文リスト
- SASA: Semantic-Aware Contrastive Learning Framework with Separated Attention for Triple Classification [0.0]
トリプル分類(TC)は、知識グラフからトリプルの妥当性を決定することを目的としている。
textbfSASA - 注意分離機構と意味認識型コントラスト学習(CL)によるTCモデルの強化を目的とした新しいフレームワーク
2つのベンチマークデータセットによる実験結果から、SASAは最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-19T13:19:00Z) - When in Doubt, Deliberate: Confidence-Based Routing to Expert Debate for Sexism Detection [7.299050989302629]
我々は,(i)低表現,(ii)雑音,(iii)データおよびモデル予測における概念的あいまいさの複合効果に対処する枠組みを提案する。
提案手法では,タスク EXIST 2025 タスク 1.1 では F1 が +2.72% 改善され,EDOS A と B では +4.48% と +1.30% が得られた。
論文 参考訳(メタデータ) (2025-12-21T05:48:57Z) - Reasoning-Aware Multimodal Fusion for Hateful Video Detection [28.9889316637547]
オンラインビデオでのヘイトスピーチは、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法はしばしば、モダリティ間の複雑な意味関係を効果的に融合させるのに苦労する。
本稿では,革新的なReasoning-Aware Multimodal Fusionフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T13:24:17Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。