論文の概要: Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection
- arxiv url: http://arxiv.org/abs/2602.19212v1
- Date: Sun, 22 Feb 2026 14:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.533444
- Title: Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection
- Title(参考訳): マルチモーダルベンガルHateful Meme検出のための検索強化デュアルコアテンションフレームワーク
- Authors: Raihan Tanvir, Md. Golam Rabiul Alam,
- Abstract要約: ソーシャルメディア上の憎しみのあるコンテンツは、有害な物語を伝えるために画像とテキストを組み合わせたマルチモーダルなミームとしてますます現れている。
これらの問題に対処するため、ベンガルのMultimodal Aggressionデータセット(MIMOSA)から意味的に整合したサンプルを用いて、Bengali Hateful Memesデータセットを拡張した。
本稿では,視覚エンコーダ (CLIP, DINOv2) と多言語テキストエンコーダ (XGLM, XLM-R) を重み付きアテンションプールにより統合し,ロバストなクロスモーダル表現を学習する拡張デュアルコアテンションフレームワーク (xDORA) を提案する。
- 参考スコア(独自算出の注目度): 1.1172382217477128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful content on social media increasingly appears as multimodal memes that combine images and text to convey harmful narratives. In low-resource languages such as Bengali, automated detection remains challenging due to limited annotated data, class imbalance, and pervasive code-mixing. To address these issues, we augment the Bengali Hateful Memes (BHM) dataset with semantically aligned samples from the Multimodal Aggression Dataset in Bengali (MIMOSA), improving both class balance and semantic diversity. We propose the Enhanced Dual Co-attention Framework (xDORA), integrating vision encoders (CLIP, DINOv2) and multilingual text encoders (XGLM, XLM-R) via weighted attention pooling to learn robust cross-modal representations. Building on these embeddings, we develop a FAISS-based k-nearest neighbor classifier for non-parametric inference and introduce RAG-Fused DORA, which incorporates retrieval-driven contextual reasoning. We further evaluate LLaVA under zero-shot, few-shot, and retrieval-augmented prompting settings. Experiments on the extended dataset show that xDORA (CLIP + XLM-R) achieves macro-average F1-scores of 0.78 for hateful meme identification and 0.71 for target entity detection, while RAG-Fused DORA improves performance to 0.79 and 0.74, yielding gains over the DORA baseline. The FAISS-based classifier performs competitively and demonstrates robustness for rare classes through semantic similarity modeling. In contrast, LLaVA exhibits limited effectiveness in few-shot settings, with only modest improvements under retrieval augmentation, highlighting constraints of pretrained vision-language models for code-mixed Bengali content without fine-tuning. These findings demonstrate the effectiveness of supervised, retrieval-augmented, and non-parametric multimodal frameworks for addressing linguistic and cultural complexities in low-resource hate speech detection.
- Abstract(参考訳): ソーシャルメディア上の憎しみのあるコンテンツは、有害な物語を伝えるために画像とテキストを組み合わせたマルチモーダルなミームとしてますます現れている。
Bengaliのような低リソース言語では、アノテーション付きデータ、クラス不均衡、広範に混在するコード混在のため、自動検出は依然として困難である。
これらの問題に対処するため、ベンガルのMultimodal Aggression Dataset(MIMOSA)のセマンティックアライメントを用いたBHMデータセットを拡張し、クラスバランスとセマンティック多様性を改善した。
本稿では,視覚エンコーダ (CLIP, DINOv2) と多言語テキストエンコーダ (XGLM, XLM-R) を重み付きアテンションプールにより統合し,ロバストなクロスモーダル表現を学習する拡張デュアルコアテンションフレームワーク (xDORA) を提案する。
これらの埋め込みに基づいて,非パラメトリック推論のためのFAISSベースのk-nearest近傍分類器を開発し,検索駆動型文脈推論を組み込んだRAG融合DORAを導入する。
さらに、ゼロショット、少数ショット、検索強化プロンプト設定でLLaVAを評価する。
拡張データセットの実験により、xDORA(CLIP + XLM-R)は、憎悪なミーム識別のための平均F1スコアが0.78、ターゲットエンティティ検出のための0.71、RAG-Fused DORAが0.79と0.74に向上し、DORAベースライン上での利得が得られることが示された。
FAISSベースの分類器は、意味的類似性モデリングにより、稀なクラスに対して堅牢性を示す。
対照的に、LLaVAは数ショット設定で限定的な有効性を示しており、検索強化下ではわずかに改善されているだけであり、微調整なしでコード混在のベンガルコンテンツに対する事前学習された視覚言語モデルの制約を強調している。
これらの結果は,低リソースのヘイトスピーチ検出における言語的・文化的複雑さに対処するための,教師付き・検索強化・非パラメトリック・マルチモーダル・フレームワークの有効性を示す。
関連論文リスト
- VIOLA: Towards Video In-Context Learning with Minimal Annotations [20.810620293371027]
我々は、豊富なラベルのないデータと最小限の専門家監督を相乗化するためのフレームワークVIOLAを紹介する。
我々のフレームワークは、低リソース環境で様々なベースラインを著しく上回り、最小限のアノテーションコストでロバストな適応を実現しています。
論文 参考訳(メタデータ) (2026-01-22T00:35:30Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - KinyaColBERT: A Lexically Grounded Retrieval Model for Low-Resource Retrieval-Augmented Generation [5.236553729261855]
そこで本稿では,クエリとドキュメント間の単語レベルの遅延インタラクションと,2層トランスフォーマ符号化を組み合わせた形態素ベースのトークン化という,2つの重要な概念を統合した検索モデルKinyaColBERTを提案する。
評価の結果,KinyaColBERTはKinyarwandaの農業用ベンチマークにおいて,強いベースラインと商業用テキスト埋め込みAPIよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-07-04T01:18:08Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - Retrieval-augmented in-context learning for multimodal large language models in disease classification [18.48849976529677]
RAICLは、検索強化世代(RAG)とコンテキスト内学習(ICL)を統合し、同様の病気パターンを持つデモを適応的に選択する。
このフレームワークを実世界の2つのマルチモーダルデータセット上で評価した。
論文 参考訳(メタデータ) (2025-05-04T12:43:56Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。