論文の概要: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- arxiv url: http://arxiv.org/abs/2304.14931v3
- Date: Mon, 25 Nov 2024 14:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:10.846112
- Title: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- Title(参考訳): HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット
- Authors: Abdurahman Maarouf, Dominik Bär, Dominique Geissler, Stefan Feuerriegel,
- Abstract要約: 高品質なラベルを用いたオンラインプロパガンダ検出のための新しいデータセットHQPを提案する。
我々は、最先端の言語モデルは、弱いラベルで訓練された場合、オンラインプロパガンダを検出するのに失敗していることを示す。
高品質なラベルの小さなサンプルを用いた素早い学習は、依然として妥当な性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 18.837597864085865
- License:
- Abstract: Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present HQP: a novel dataset (N = 30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, HQP is the first large-scale dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) We show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27) while significantly reducing the cost of labeling. (4) We extend HQP to HQP+ to test how well propaganda across different contexts can be detected. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.
- Abstract(参考訳): オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。
しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。
1)高品質なラベルでオンラインプロパガンダを検出するための新しいデータセット(N = 30,000)をHQPに提示する。
私たちの知る限りでは、HQPは人間のアノテーションによって作成されたオンラインプロパガンダを検出するための最初の大規模なデータセットです。
2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端の言語モデルではオンラインプロパガンダの検出に失敗することが実証的に示されている(AUC: 64.03)。
対照的に、最先端の言語モデルでは、高品質なラベル(AUC:92.25)でトレーニングした際のオンラインプロパガンダを正確に検出できます。
(3) 高品質ラベルの少数のサンプルを用いた即時学習は, 十分な性能(AUC: 80.27)を保ちながら, ラベルのコストを大幅に削減できることを示す。
(4) HQP をHQP+ に拡張し,様々な状況におけるプロパガンダの検出精度を検証した。
本研究は,プロパガンダ検出などの機密性の高いNLPタスクにおいて,高品質なラベルの重要性を強調した。
関連論文リスト
- PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent [71.20471076045916]
プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。
Propainsightはプロパガンダを体系的に、技術、覚醒的魅力、そして根底にある意図に分解する。
Propagazeは、人間の注釈付きデータと高品質な合成データを組み合わせる。
論文 参考訳(メタデータ) (2024-09-19T06:28:18Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Large Language Models for Multi-label Propaganda Detection [0.0]
マルチラベル環境下でのプロパガンダ検出処理を行うWANLP 2022共有タスクに対するアプローチについて述べる。
このタスクは、与えられたテキストを1つ以上のプロパガンダ技術を持つものとしてラベル付けするようモデルに要求する。
5つのモデルのアンサンブルがタスクで最高のパフォーマンスを示し、マイクロF1スコアは59.73%である。
論文 参考訳(メタデータ) (2022-10-15T06:47:31Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。