Fugu-MT 論文翻訳(概要): HQP: A Human-Annotated Dataset for Detecting Online Propaganda

論文の概要: HQP: A Human-Annotated Dataset for Detecting Online Propaganda

arxiv url: http://arxiv.org/abs/2304.14931v1
Date: Fri, 28 Apr 2023 15:42:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 13:43:14.319307
Title: HQP: A Human-Annotated Dataset for Detecting Online Propaganda
Title（参考訳）: HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット
Authors: Abdurahman Maarouf, Dominik B\"ar, Dominique Geissler, Stefan Feuerriegel
Abstract要約: 高品質なラベルを用いたオンラインプロパガンダ検出のための新しいデータセットであるデータセットを提案する。我々は、最先端の言語モデルは、弱いラベルで訓練された場合、オンラインプロパガンダを検出するのに失敗していることを示す。高品質なラベルの小さなサンプルを使用して、作業を数ショットの学習にまで拡張します。
参考スコア（独自算出の注目度）: 16.24101217212473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present \dataset: a novel dataset (N=30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, \dataset is the first dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To address the cost of labeling, we extend our work to few-shot learning. Specifically, we show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27). Finally, we discuss implications for the NLP community to balance the cost and quality of labeling. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.
Abstract（参考訳）: オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。 1) 高品質ラベルを用いたオンラインプロパガンダ検出のための新しいデータセット (n=30,000) を提案する。私たちの知る限り、 \datasetは、人間のアノテーションによって作成されたオンラインプロパガンダを検出する最初のデータセットです。 2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端言語モデルはオンラインプロパガンダの検出に失敗することを示す。対照的に最先端の言語モデルでは、高品質なラベル(auc: 92.25)でトレーニングされた場合、オンラインプロパガンダを正確に検出できます。 (3) ラベリングのコストに対処するため, 作業を数発の学習に拡張する。具体的には,高品質ラベルの少数のサンプルを用いた即時学習が依然として妥当な性能(AUC: 80.27)が得られることを示す。最後に、NLPコミュニティがラベリングのコストと品質のバランスをとることの意味について論じる。本研究は,プロパガンダ検出などのセンシティブなnlpタスクにおける高品質ラベルの重要性を強調する。

関連論文リスト

Hybrid Annotation for Propaganda Detection: Integrating LLM Pre-Annotations with Human Intelligence [8.856227991149506]
本稿では,人間の専門知識とLarge Language Model (LLM) の支援を組み合わせることで,アノテーションの一貫性とスケーラビリティを両立させる新しいフレームワークを提案する。本稿では,14の細粒度プロパガンダを3つのカテゴリに分類する階層型分類法を提案する。我々は,LLMを利用した事前アノテーションパイプラインを実装し,プロパガンダ的スパンを抽出し,簡潔な説明を生成し,ローカルラベルとグローバルラベルを割り当てる。
論文参考訳（メタデータ） (2025-07-24T12:16:52Z)
PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent [71.20471076045916]
プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。 Propainsightはプロパガンダを体系的に、技術、覚醒的魅力、そして根底にある意図に分解する。 Propagazeは、人間の注釈付きデータと高品質な合成データを組み合わせる。
論文参考訳（メタデータ） (2024-09-19T06:28:18Z)
Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文参考訳（メタデータ） (2024-02-27T13:02:19Z)
Large Language Models for Multi-label Propaganda Detection [0.0]
マルチラベル環境下でのプロパガンダ検出処理を行うWANLP 2022共有タスクに対するアプローチについて述べる。このタスクは、与えられたテキストを1つ以上のプロパガンダ技術を持つものとしてラベル付けするようモデルに要求する。 5つのモデルのアンサンブルがタスクで最高のパフォーマンスを示し、マイクロF1スコアは59.73%である。
論文参考訳（メタデータ） (2022-10-15T06:47:31Z)
Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。 We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文参考訳（メタデータ） (2022-08-02T19:32:08Z)
Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。 LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。 LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文参考訳（メタデータ） (2022-06-10T16:01:58Z)
Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62～7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文参考訳（メタデータ） (2022-03-10T14:24:19Z)
Dataset of Propaganda Techniques of the State-Sponsored Information Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文参考訳（メタデータ） (2021-06-14T16:11:13Z)
Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文参考訳（メタデータ） (2020-11-13T10:19:13Z)
Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文参考訳（メタデータ） (2020-08-17T07:13:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。