論文の概要: When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech
- arxiv url: http://arxiv.org/abs/2603.25269v1
- Date: Thu, 26 Mar 2026 10:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.238141
- Title: When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech
- Title(参考訳): LLMs-in-the-Loop for Check-worthness Detection in Hate Speech (英語)
- Authors: Nicolás Benjamín Ocampo, Tommaso Caselli, Davide Ceolin,
- Abstract要約: WSF-ARG+はヘイトスピーチとチェック履歴情報を組み合わせた最初のデータセットである。
チェック価値のあるクレームのアノテーションを容易にするための新しいLLM-in-the-loopフレームワークを提案する。
チェックする価値のある主張を持つHSメッセージは、ハラスメントと憎悪を著しく高めていることを示している。
- 参考スコア(独自算出の注目度): 4.736364625993341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful content online is often expressed using fact-like, not necessarily correct information, especially in coordinated online harassment campaigns and extremist propaganda. Failing to jointly address hate speech (HS) and misinformation can deepen prejudice, reinforce harmful stereotypes, and expose bystanders to psychological distress, while polluting public debate. Moreover, these messages require more effort from content moderators because they must assess both harmfulness and veracity, i.e., fact-check them. To address this challenge, we release WSF-ARG+, the first dataset which combines hate speech with check-worthiness information. We also introduce a novel LLM-in-the-loop framework to facilitate the annotation of check-worthy claims. We run our framework, testing it with 12 open-weight LLMs of different sizes and architectures. We validate it through extensive human evaluation, and show that our LLM-in-the-loop framework reduces human effort without compromising the annotation quality of the data. Finally, we show that HS messages with check-worthy claims show significantly higher harassment and hate, and that incorporating check-worthiness labels improves LLM-based HS detection up to 0.213 macro-F1 and to 0.154 macro-F1 on average for large models.
- Abstract(参考訳): 特にオンラインハラスメントキャンペーンや過激派プロパガンダにおいて、オンライン上の憎しみのあるコンテンツは、必ずしも正しい情報ではなく事実のような形で表現されることが多い。
ヘイトスピーチ(HS)と誤報に共同で対処できないことは、偏見を深め、有害なステレオタイプを強化し、傍観者を心理的苦痛にさらし、公衆の議論を汚染する。
さらに、これらのメッセージは、有害性と妥当性、すなわち事実チェックの両方を評価する必要があるため、コンテンツモデレーターの努力を必要とする。
この課題に対処するため、我々はヘイトスピーチとチェック履歴情報を組み合わせた最初のデータセットであるWSF-ARG+をリリースする。
また,チェック価値のあるクレームのアノテーションを容易にする新しいLLM-in-the-loopフレームワークについても紹介する。
フレームワークを実行し、異なるサイズとアーキテクチャのオープンウェイトなLLMを12つテストしています。
そこで我々は,LLM-in-the-loopフレームワークが,データのアノテーション品質を損なうことなく,人間の労力を削減できることを実証した。
最後に,チェック価値を主張するHSメッセージは,嫌がらせや嫌がらせが著しく増加し,チェックしやすさラベルを組み込むことで,LLMベースのHS検出を最大0.213マクロF1および0.154マクロF1まで改善することを示す。
関連論文リスト
- Wisdom of the LLM Crowd: A Large Scale Benchmark of Multi-Label U.S. Election-Related Harmful Social Media Content [1.7020765368200692]
USE24-XDは、2024年のアメリカ合衆国大統領選挙期間中にX(元Twitter)から収集された100万近い投稿の大規模なデータセットである。
我々は,共謀,感性主義,ヘイトスピーチ,スペキュレーション,サティアという5つのカテゴリの投稿を体系的にアノテートするために,6つの大きな言語モデル(LLM)を採用している。
論文 参考訳(メタデータ) (2026-02-12T13:57:12Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Generating Grounded Responses to Counter Misinformation via Learning Efficient Fine-Grained Critiques [9.514892000592912]
MisMitiFactは、ファクトグラウンドの反レスポンスを大規模に生成するための効率的なフレームワークである。
我々は,手軽なファクトチェックサイトから得られたデータに基づいて訓練された軽量できめ細かな批判モデルを開発する。
フィードバック生成スループットは5倍に向上し、コスト効率が高く、大規模な誤情報低減に非常に適している。
論文 参考訳(メタデータ) (2025-06-06T09:46:09Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG [50.030526904378256]
Retrieval-Augmented Generation (RAG)は、外部文書を参照することにより、LLM(Large Language Models)の幻覚を軽減することができる。
この問題に対処するために,我々は「クレディビリティ・アウェアRAG」の課題を探求する。
我々は$textbfCr$edibility-aware $textbfA$ttention $textbfM$odification (CrAM)というプラグイン・アンド・プレイ方式を導入する。
Llama2-13B, Llama3-8B, Qwen1.5-7Bを用いた経時的質問とトリビアQA実験
論文 参考訳(メタデータ) (2024-06-17T13:01:12Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。