論文の概要: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- arxiv url: http://arxiv.org/abs/2304.14931v1
- Date: Fri, 28 Apr 2023 15:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:43:14.319307
- Title: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- Title(参考訳): HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット
- Authors: Abdurahman Maarouf, Dominik B\"ar, Dominique Geissler, Stefan
Feuerriegel
- Abstract要約: 高品質なラベルを用いたオンラインプロパガンダ検出のための新しいデータセットであるデータセットを提案する。
我々は、最先端の言語モデルは、弱いラベルで訓練された場合、オンラインプロパガンダを検出するのに失敗していることを示す。
高品質なラベルの小さなサンプルを使用して、作業を数ショットの学習にまで拡張します。
- 参考スコア(独自算出の注目度): 16.24101217212473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online propaganda poses a severe threat to the integrity of societies.
However, existing datasets for detecting online propaganda have a key
limitation: they were annotated using weak labels that can be noisy and even
incorrect. To address this limitation, our work makes the following
contributions: (1) We present \dataset: a novel dataset (N=30,000) for
detecting online propaganda with high-quality labels. To the best of our
knowledge, \dataset is the first dataset for detecting online propaganda that
was created through human annotation. (2) We show empirically that
state-of-the-art language models fail in detecting online propaganda when
trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language
models can accurately detect online propaganda when trained with our
high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To
address the cost of labeling, we extend our work to few-shot learning.
Specifically, we show that prompt-based learning using a small sample of
high-quality labels can still achieve a reasonable performance (AUC: 80.27).
Finally, we discuss implications for the NLP community to balance the cost and
quality of labeling. Crucially, our work highlights the importance of
high-quality labels for sensitive NLP tasks such as propaganda detection.
- Abstract(参考訳): オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。
しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。
1) 高品質ラベルを用いたオンラインプロパガンダ検出のための新しいデータセット (n=30,000) を提案する。
私たちの知る限り、 \datasetは、人間のアノテーションによって作成されたオンラインプロパガンダを検出する最初のデータセットです。
2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端言語モデルはオンラインプロパガンダの検出に失敗することを示す。
対照的に最先端の言語モデルでは、高品質なラベル(auc: 92.25)でトレーニングされた場合、オンラインプロパガンダを正確に検出できます。
(3) ラベリングのコストに対処するため, 作業を数発の学習に拡張する。
具体的には,高品質ラベルの少数のサンプルを用いた即時学習が依然として妥当な性能(AUC: 80.27)が得られることを示す。
最後に、NLPコミュニティがラベリングのコストと品質のバランスをとることの意味について論じる。
本研究は,プロパガンダ検出などのセンシティブなnlpタスクにおける高品質ラベルの重要性を強調する。
関連論文リスト
- PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent [71.20471076045916]
プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。
Propainsightはプロパガンダを体系的に、技術、覚醒的魅力、そして根底にある意図に分解する。
Propagazeは、人間の注釈付きデータと高品質な合成データを組み合わせる。
論文 参考訳(メタデータ) (2024-09-19T06:28:18Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Large Language Models for Multi-label Propaganda Detection [0.0]
マルチラベル環境下でのプロパガンダ検出処理を行うWANLP 2022共有タスクに対するアプローチについて述べる。
このタスクは、与えられたテキストを1つ以上のプロパガンダ技術を持つものとしてラベル付けするようモデルに要求する。
5つのモデルのアンサンブルがタスクで最高のパフォーマンスを示し、マイクロF1スコアは59.73%である。
論文 参考訳(メタデータ) (2022-10-15T06:47:31Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。