論文の概要: SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility
- arxiv url: http://arxiv.org/abs/2601.20256v1
- Date: Wed, 28 Jan 2026 05:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.776603
- Title: SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility
- Title(参考訳): SoftHateBench: 推論駆動でポリシー準拠のホスト性に対するモデレーションモデルの評価
- Authors: Xuanyu Su, Diana Inkpen, Nathalie Japkowicz,
- Abstract要約: textbftextscSoftHateBenchは,敵対的立場を維持しながらソフトヘイトな変種を生成する生成ベンチマークである。
このベンチマークは、textbf7社会文化的ドメインとtextbf28ターゲットグループにまたがっており、textbf4,745のソフトヘイトインスタンスを含んでいる。
エンコーダベースの検出器、汎用LLM、安全モデルによる評価は、ハード層からソフト層への一貫した低下を示している。
- 参考スコア(独自算出の注目度): 6.293833791034378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online hate on social media ranges from overt slurs and threats (\emph{hard hate speech}) to \emph{soft hate speech}: discourse that appears reasonable on the surface but uses framing and value-based arguments to steer audiences toward blaming or excluding a target group. We hypothesize that current moderation systems, largely optimized for surface toxicity cues, are not robust to this reasoning-driven hostility, yet existing benchmarks do not measure this gap systematically. We introduce \textbf{\textsc{SoftHateBench}}, a generative benchmark that produces soft-hate variants while preserving the underlying hostile standpoint. To generate soft hate, we integrate the \emph{Argumentum Model of Topics} (AMT) and \emph{Relevance Theory} (RT) in a unified framework: AMT provides the backbone argument structure for rewriting an explicit hateful standpoint into a seemingly neutral discussion while preserving the stance, and RT guides generation to keep the AMT chain logically coherent. The benchmark spans \textbf{7} sociocultural domains and \textbf{28} target groups, comprising \textbf{4,745} soft-hate instances. Evaluations across encoder-based detectors, general-purpose LLMs, and safety models show a consistent drop from hard to soft tiers: systems that detect explicit hostility often fail when the same stance is conveyed through subtle, reasoning-based language. \textcolor{red}{\textbf{Disclaimer.} Contains offensive examples used solely for research.}
- Abstract(参考訳): ソーシャルメディア上のオンラインヘイトスピーチは、過度な嫌がらせや脅し(\emph{hard hate speech})から、表面的には合理的に見えるが、フレーミングと価値に基づく議論を使って、ターゲットグループを非難したり排除したりする。
我々は、現在のモデレーションシステムは、主に表面毒性に最適化されているが、この推論駆動の敵意に対して堅牢ではないと仮定するが、既存のベンチマークでは、このギャップを体系的に測定していない。
そこで本研究では,基本となる敵の立場を維持しつつ,ソフトヘイト変種を生成する生成ベンチマークである \textbf{\textsc{SoftHateBench}} を紹介する。
柔らかい憎悪を生み出すために、我々は統一されたフレームワークに 'emph{Argumentum Model of Topics} (AMT) と 'emph{Relevance Theory} (RT) を統合する。
このベンチマークは、 \textbf{7} の社会文化的ドメインと、 \textbf{4,745} のソフトヘイトインスタンスを含むターゲットグループにまたがる。
エンコーダベースの検出器、汎用LLM、安全モデルによる評価は、ハード層からソフト層への一貫した低下を示している。
\textcolor{red}{\textbf{Disclaimer
} 研究にのみ使用される攻撃的な例を含む。
※
関連論文リスト
- Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - In-Context Representation Hijacking [15.706479613839967]
Doublespeakは、大規模言語モデルに対するコンテキスト内表現ハイジャック攻撃である。
置換は有害なトークンに対して収束した良性トークンの内部表現につながることを示す。
このセマンティクスが層ごとに出現し、初期層における良性の意味が後層において有害なセマンティクスに収束することを示します。
論文 参考訳(メタデータ) (2025-12-03T13:19:34Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。