論文の概要: MEME-Fusion@CHiPSAL 2026: Multimodal Ablation Study of Hate Detection and Sentiment Analysis on Nepali Memes
- arxiv url: http://arxiv.org/abs/2604.14218v1
- Date: Mon, 13 Apr 2026 07:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.916317
- Title: MEME-Fusion@CHiPSAL 2026: Multimodal Ablation Study of Hate Detection and Sentiment Analysis on Nepali Memes
- Title(参考訳): MEME-Fusion@CHiPSAL 2026:ネパールのミームにおけるHate検出と知覚分析のマルチモーダルアブレーション研究
- Authors: Samir Wagle, Reewaj Khanal, Abiral Adhikari,
- Abstract要約: 本稿では,CHiPSAL 2026共有タスクに対して,サブタスクAとサブタスクBの両方に対処するシステムを提案する。
視覚符号化のためのCLIPと多言語テキスト表現のためのBGE-M3を組み合わせたハイブリッド・モーダル・アテンション融合アーキテクチャを提案する。
テキストのみのベースラインであるSubtask Aの5.9%のF1マクロ改善を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection in Devanagari-scripted social media memes presents compounded challenges: multimodal content structure, script-specific linguistic complexity, and extreme data scarcity in low-resource settings. This paper presents our system for the CHiPSAL 2026 shared task, addressing both Subtask A (binary hate speech detection) and Subtask B (three-class sentiment classification: positive, neutral, negative). We propose a hybrid cross-modal attention fusion architecture that combines CLIP (ViT-B/32) for visual encoding with BGE-M3 for multilingual text representation, connected through 4-head self-attention and a learnable gating network that dynamically weights modality contributions on a per-sample basis. Systematic evaluation across eight model configurations demonstrates that explicit cross-modal reasoning achieves a 5.9% F1-macro improvement over text-only baselines on Subtask A, while uncovering two unexpected but critical findings: English-centric vision models exhibit near-random performance on Devanagari script, and standard ensemble methods catastrophically degrade under data scarcity (N nearly equal to 850 per fold) due to correlated overfitting. The code can be accessed at https://github.com/Tri-Yantra-Technologies/MEME-Fusion/
- Abstract(参考訳): Devanagari-scripted social media memesのヘイトスピーチ検出は、マルチモーダルコンテンツ構造、スクリプト固有の言語的複雑さ、低リソース環境における極端なデータ不足など、複雑な課題を提示する。
本稿では,CiPSAL 2026共有タスクに対して,サブタスクA(バイナリヘイトスピーチ検出)とサブタスクB(3段階の感情分類:ポジティブ,中立,ネガティブ)の両方に対処するシステムを提案する。
視覚符号化のためのCLIP(ViT-B/32)と多言語テキスト表現のためのBGE-M3を組み合わせたハイブリッド・モーダル・アテンション・フュージョンアーキテクチャを提案する。
8つのモデル構成の体系的評価により、明示的なクロスモーダル推論は、Subtask Aのテキストのみのベースラインよりも5.9%のF1マクロ改善を実現し、予期せぬ2つの重要な発見を発見した。
コードはhttps://github.com/Tri-Yantra-Technologies/MEME-Fusion/でアクセスできる。
関連論文リスト
- Bilingual Text-to-Motion Generation: A New Benchmark and Baselines [52.71312720094036]
LLMアノテーションと厳密な手動修正によって構築されたバイリンガルテキスト・モーション・ベンチマークであるBiHumanML3Dを紹介する。
また,CLA(Cross-Lingual Alignment)を用いたバイリンガルモーション拡散合成(BiMD)を提案する。
CLA を用いた BiMD は 0.045 対 0.169 対 R@3 対 80.8% の FID を達成し、単言語拡散モデルと BiHumanML3D の翻訳ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-26T08:48:27Z) - Labels or Input? Rethinking Augmentation in Multimodal Hate Detection [9.166963162285064]
マルチモーダルヘイト検出を改善するために,マルチモーダルヘイト検出法を提案する。
まず、素早い構造、監督、訓練のモダリティを体系的に変化させるプロンプト最適化フレームワークを提案する。
次に,2,479個の正中性ミームを生成するマルチモーダルデータ拡張パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-15T21:31:00Z) - Team "better_call_claude": Style Change Detection using a Sequential Sentence Pair Classifier [5.720553544629197]
PAN 2025では、共有タスクは参加者に対して、最もきめ細かいレベルでスタイルを検出するよう呼びかけている。
本稿では,Sentence Pair Pair (SSPC)アーキテクチャを用いて各インスタンスの内容をモデル化し,この問題に対処することを提案する。
EASY媒体でそれぞれ0.92328、0.724、HARDデータで強いマクロスコアを得る。
論文 参考訳(メタデータ) (2025-08-01T14:48:17Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。