論文の概要: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- arxiv url: http://arxiv.org/abs/2304.14931v1
- Date: Fri, 28 Apr 2023 15:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:43:14.319307
- Title: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
- Title(参考訳): HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット
- Authors: Abdurahman Maarouf, Dominik B\"ar, Dominique Geissler, Stefan
Feuerriegel
- Abstract要約: 高品質なラベルを用いたオンラインプロパガンダ検出のための新しいデータセットであるデータセットを提案する。
我々は、最先端の言語モデルは、弱いラベルで訓練された場合、オンラインプロパガンダを検出するのに失敗していることを示す。
高品質なラベルの小さなサンプルを使用して、作業を数ショットの学習にまで拡張します。
- 参考スコア(独自算出の注目度): 16.24101217212473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online propaganda poses a severe threat to the integrity of societies.
However, existing datasets for detecting online propaganda have a key
limitation: they were annotated using weak labels that can be noisy and even
incorrect. To address this limitation, our work makes the following
contributions: (1) We present \dataset: a novel dataset (N=30,000) for
detecting online propaganda with high-quality labels. To the best of our
knowledge, \dataset is the first dataset for detecting online propaganda that
was created through human annotation. (2) We show empirically that
state-of-the-art language models fail in detecting online propaganda when
trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language
models can accurately detect online propaganda when trained with our
high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To
address the cost of labeling, we extend our work to few-shot learning.
Specifically, we show that prompt-based learning using a small sample of
high-quality labels can still achieve a reasonable performance (AUC: 80.27).
Finally, we discuss implications for the NLP community to balance the cost and
quality of labeling. Crucially, our work highlights the importance of
high-quality labels for sensitive NLP tasks such as propaganda detection.
- Abstract(参考訳): オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。
しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。
1) 高品質ラベルを用いたオンラインプロパガンダ検出のための新しいデータセット (n=30,000) を提案する。
私たちの知る限り、 \datasetは、人間のアノテーションによって作成されたオンラインプロパガンダを検出する最初のデータセットです。
2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端言語モデルはオンラインプロパガンダの検出に失敗することを示す。
対照的に最先端の言語モデルでは、高品質なラベル(auc: 92.25)でトレーニングされた場合、オンラインプロパガンダを正確に検出できます。
(3) ラベリングのコストに対処するため, 作業を数発の学習に拡張する。
具体的には,高品質ラベルの少数のサンプルを用いた即時学習が依然として妥当な性能(AUC: 80.27)が得られることを示す。
最後に、NLPコミュニティがラベリングのコストと品質のバランスをとることの意味について論じる。
本研究は,プロパガンダ検出などのセンシティブなnlpタスクにおける高品質ラベルの重要性を強調する。
関連論文リスト
- Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Labeled Data Generation with Inexact Supervision [33.110134862501546]
本稿では,ラベル付きデータ生成における不正確な管理を伴う新しい問題について検討する。
そこで本研究では,高品質なラベル付きデータをターゲット分類タスクのために合成する,ADDESと呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T22:22:26Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。