論文の概要: ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection
- arxiv url: http://arxiv.org/abs/2510.08630v1
- Date: Wed, 08 Oct 2025 13:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.220156
- Title: ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection
- Title(参考訳): ExPO-HM:Hateful Meme DetectionのためのExplain-then-Detectの学習
- Authors: Jingbiao Mei, Mingsheng Sun, Jinghong Chen, Pengda Qin, Yuhong Li, Da Chen, Bill Byrne,
- Abstract要約: 有害なミームは、オンライン虐待の特に困難な形態として現れ、自動検知システムの開発を動機付けている。
従来のアプローチのほとんどは直接検出に依存しており、バイナリ予測のみを生成する。
ExPO-HMは、SFTウォームアップとGRPOをカリキュラム学習と組み合わせ、条件決定エントロピー(CDE)を、推論品質の指標と報酬の両方として組み合わせている。
- 参考スコア(独自算出の注目度): 29.000615125118127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful memes have emerged as a particularly challenging form of online abuse, motivating the development of automated detection systems. Most prior approaches rely on direct detection, producing only binary predictions. Such models fail to provide the context and explanations that real-world moderation requires. Recent Explain-then-Detect approaches, using Chain-of-Thought prompting or LMM agents, perform worse than simple SFT baselines, and even advanced post-training methods such as GRPO fail to close the gap. Our analysis identifies two key issues of such systems: important policy-relevant cues such as targets and attack types are not hypothesized by the model as a likely explanation; and the binary reward signal is insufficient to guide reasoning. To address these challenges, we propose ExPO-HM (Explain-then-Detect Policy Optimization for Hateful Memes), inspired by the training and evaluation process of human annotators. ExPO-HM combines SFT warmup, GRPO with curriculum learning, and Conditional Decision Entropy (CDE) as both metric and reward for reasoning quality. Across three hateful meme benchmarks, ExPO-HM achieves state-of-the-art performance on binary detection, fine-grained classification, and reasoning quality, with up to 15\% and 17\% F1 improvement over the GRPO and DPO baselines, respectively. By moving hateful meme detection from simple binary alarms to explanation-driven detection, ExPO-HM provides accurate, interpretable, and actionable moderation support.
- Abstract(参考訳): 有害なミームは、オンライン虐待の特に困難な形態として現れ、自動検知システムの開発を動機付けている。
従来のアプローチのほとんどは直接検出に依存しており、バイナリ予測のみを生成する。
このようなモデルは、現実世界のモデレーションに必要なコンテキストや説明を提供するのに失敗する。
近年の Explain-then-Detect approach, using Chain-of-Thought prompting or LMM agent, performed worse than simple SFT baselines, and even advanced post-training methods such as GRPO fail to close the gap。
本分析では,ターゲットやアタックタイプなどの重要な政策関連手法がモデルによって仮説化されていないこと,二項報酬信号が推論の導出に不十分であること,の2つの問題を明らかにした。
これらの課題に対処するために,人間のアノテータのトレーニングと評価プロセスに触発されたExPO-HM(Explain-then-Detect Policy Optimization for Hateful Memes)を提案する。
ExPO-HMは、SFTウォームアップとGRPOをカリキュラム学習と組み合わせ、条件決定エントロピー(CDE)を、推論品質の指標と報酬の両方として組み合わせている。
ExPO-HMは3つのヘイトフルミームベンチマークでバイナリ検出、きめ細かな分類、推論品質の最先端性能を達成し、GRPOベースラインとDPOベースラインに対して最大15\%と17\%のF1改善を実現している。
単純なバイナリアラームから説明駆動検出に移行することで、ExPO-HMは正確な、解釈可能な、動作可能なモデレーションサポートを提供する。
関連論文リスト
- VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation [4.02943411607022]
既存のブラックボックステキストベースの敵攻撃は、証拠に基づく誤情報検出システムには不適である。
本稿では,2エージェントシステムを用いた反復的LCM駆動型アプローチであるCAMOUFLAGEについて述べる。
最近の2つの学術システムと2つの実世界のAPIを含む4つのシステムでCAMOUFLAGEを評価し、平均的な攻撃成功率は46.92%である。
論文 参考訳(メタデータ) (2025-05-03T19:14:24Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。