論文の概要: Wisdom of the LLM Crowd: A Large Scale Benchmark of Multi-Label U.S. Election-Related Harmful Social Media Content
- arxiv url: http://arxiv.org/abs/2602.11962v1
- Date: Thu, 12 Feb 2026 13:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.855287
- Title: Wisdom of the LLM Crowd: A Large Scale Benchmark of Multi-Label U.S. Election-Related Harmful Social Media Content
- Title(参考訳): LLM Crowd: マルチラベル米国選挙関連有害ソーシャルメディアコンテンツの大規模ベンチマーク
- Authors: Qile Wang, Prerana Khatiwada, Carolina Coimbra Vieira, Benjamin E. Bagozzi, Kenneth E. Barner, Matthew Louis Mauriello,
- Abstract要約: USE24-XDは、2024年のアメリカ合衆国大統領選挙期間中にX(元Twitter)から収集された100万近い投稿の大規模なデータセットである。
我々は,共謀,感性主義,ヘイトスピーチ,スペキュレーション,サティアという5つのカテゴリの投稿を体系的にアノテートするために,6つの大きな言語モデル(LLM)を採用している。
- 参考スコア(独自算出の注目度): 1.7020765368200692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of election misinformation and harmful political content conveys misleading narratives and poses a serious threat to democratic integrity. Detecting harmful content at early stages is essential for understanding and potentially mitigating its downstream spread. In this study, we introduce USE24-XD, a large-scale dataset of nearly 100k posts collected from X (formerly Twitter) during the 2024 U.S. presidential election cycle, enriched with spatio-temporal metadata. To substantially reduce the cost of manual annotation while enabling scalable categorization, we employ six large language models (LLMs) to systematically annotate posts across five nuanced categories: Conspiracy, Sensationalism, Hate Speech, Speculation, and Satire. We validate LLM annotations with crowdsourcing (n = 34) and benchmark them against human annotators. Inter-rater reliability analyses show comparable agreement patterns between LLMs and humans, with LLMs exhibiting higher internal consistency and achieving up to 0.90 recall on Speculation. We apply a wisdom-of-the-crowd approach across LLMs to aggregate annotations and curate a robust multi-label dataset. 60% of posts receive at least one label. We further analyze how human annotator demographics, including political ideology and affiliation, shape labeling behavior, highlighting systematic sources of subjectivity in judgments of harmful content. The USE24-XD dataset is publicly released to support future research.
- Abstract(参考訳): 選挙誤報や有害な政治内容の拡散は、誤解を招く物語を伝え、民主主義の完全性に深刻な脅威をもたらす。
早期に有害なコンテンツを検出することは、下流の拡散を解明し、潜在的に軽減するために不可欠である。
本研究では、2024年アメリカ合衆国大統領選挙の期間にX(元Twitter)から収集した100万近い投稿の大規模なデータセットであるUSE24-XDを紹介し、時空間メタデータを充実させた。
拡張性のある分類を可能にしつつ,手作業によるアノテーションのコストを大幅に削減するために,5つのニュアンスカテゴリ(陰謀,感覚主義,ヘイトスピーチ,スペキュレーション,サファイア)にまたがる投稿を体系的にアノテートする6つの大規模言語モデル(LLM)を用いる。
LLMアノテーションをクラウドソーシング(n = 34)で検証し,人間アノテーションと比較した。
LLMは内部の一貫性が高く、Speculationでは最大0.90リコールを達成する。
アノテーションを集約し、堅牢なマルチラベルデータセットをキュレートするために、LCMにまたがる知恵のアプローチを適用する。
60%の投稿には少なくとも1つのラベルが付けられている。
さらに、政治的イデオロギーやアフィリエイト、形態的ラベル付け行動、有害な内容の判断における主観性の体系的な源泉の強調など、人間のアノテータの人口動態について分析する。
USE24-XDデータセットは、将来の研究をサポートするために公開されている。
関連論文リスト
- Latent Topic Synthesis: Leveraging LLMs for Electoral Ad Analysis [51.95395936342771]
ラベルなしコーパスから解釈可能なトピック分類を自動生成するエンドツーエンドフレームワークを提案する。
われわれはこの枠組みを、2024年アメリカ合衆国大統領選挙の1ヶ月前のMeta政治広告の大規模なコーパスに適用する。
提案手法は,潜在談話構造を明らかにし,意味的に豊かなトピックラベルを合成し,モラル・フレーミングの次元でトピックを注釈する。
論文 参考訳(メタデータ) (2025-10-16T20:30:20Z) - Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts [29.95198868148809]
本稿では,プロのファクトチェッカーがアウトレット全体の事実と政治的偏見を評価するために使用する基準をエミュレートする新しい手法を提案する。
メディアの人気と地域がモデル性能に与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2025-06-14T15:49:20Z) - Fact or Fiction? Can LLMs be Reliable Annotators for Political Truths? [2.321323878201932]
政治的誤報は民主的プロセスに挑戦し、世論を形成し、メディアを信頼する。
本研究では,ニュース記事の政治的事実を検出するための信頼性アノテータとして,最先端の大規模言語モデル (LLM) を用いることを検討した。
論文 参考訳(メタデータ) (2024-11-08T18:36:33Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - Generalizing Hate Speech Detection Using Multi-Task Learning: A Case Study of Political Public Figures [3.825159708387601]
本研究では,複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、これまで見つからなかったデータセットの予測では大幅に改善された。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。