論文の概要: Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles
- arxiv url: http://arxiv.org/abs/2402.17478v1
- Date: Tue, 27 Feb 2024 13:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:25:37.746440
- Title: Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles
- Title(参考訳): GPT-4はプロパガンダを同定できるか?
ニュース記事におけるプロパガンダスパンのアノテーションと検出
- Authors: Maram Hasanain, Fatema Ahmed, Firoj Alam
- Abstract要約: これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
- 参考スコア(独自算出の注目度): 11.64165958410489
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of propaganda has spiked on mainstream and social media, aiming to
manipulate or mislead users. While efforts to automatically detect propaganda
techniques in textual, visual, or multimodal content have increased, most of
them primarily focus on English content. The majority of the recent initiatives
targeting medium to low-resource languages produced relatively small annotated
datasets, with a skewed distribution, posing challenges for the development of
sophisticated propaganda detection models. To address this challenge, we
carefully develop the largest propaganda dataset to date, ArPro, comprised of
8K paragraphs from newspaper articles, labeled at the text span level following
a taxonomy of 23 propagandistic techniques. Furthermore, our work offers the
first attempt to understand the performance of large language models (LLMs),
using GPT-4, for fine-grained propaganda detection from text. Results showed
that GPT-4's performance degrades as the task moves from simply classifying a
paragraph as propagandistic or not, to the fine-grained task of detecting
propaganda techniques and their manifestation in text. Compared to models
fine-tuned on the dataset for propaganda detection at different classification
granularities, GPT-4 is still far behind. Finally, we evaluate GPT-4 on a
dataset consisting of six other languages for span detection, and results
suggest that the model struggles with the task across languages. Our dataset
and resources will be released to the community.
- Abstract(参考訳): プロパガンダの使用は主流やソーシャルメディアに急増し、ユーザーを操ったり誤解させたりすることを目指している。
テキスト、ビジュアル、マルチモーダルコンテンツにおけるプロパガンダ技術を自動的に検出する取り組みが増加しているが、そのほとんどは主に英語コンテンツに焦点を当てている。
中から低リソース言語をターゲットとする最近の取り組みの大部分は、比較的小さな注釈付きデータセットを生成しており、分布が歪んでいて、洗練されたプロパガンダ検出モデルの開発に挑戦している。
この課題に対処するため,本稿では,これまでで最大のプロパガンダデータセットであるArProを,23のプロパガンダ手法の分類基準に従って,テキストスパンレベルにラベル付けした新聞記事から8K節からなる。
さらに,本研究は,GPT-4を用いた大規模言語モデル(LLM)の性能をテキストから微細なプロパガンダ検出に利用するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
異なる分類粒度でプロパガンダ検出のためのデータセットに微調整されたモデルと比較すると、gpt-4はまだずっと遅れている。
最後に,他の6つの言語からなるデータセット上でGPT-4を評価し,そのモデルが言語間のタスクに苦しむことを示唆した。
私たちのデータセットとリソースはコミュニティにリリースされます。
関連論文リスト
- PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent [71.20471076045916]
プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。
Propainsightはプロパガンダを体系的に、技術、覚醒的魅力、そして根底にある意図に分解する。
Propagazeは、人間の注釈付きデータと高品質な合成データを組み合わせる。
論文 参考訳(メタデータ) (2024-09-19T06:28:18Z) - Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - Large Language Models for Propaganda Detection [2.587450057509126]
本研究では,プロパガンダ検出におけるLarge Language Models(LLMs)の有効性について検討した。
GPT-3とGPT-4の5つのバリエーションが採用され、様々な迅速な技術と微調整戦略が取り入れられた。
以上の結果から, GPT-4は現在の最先端技術と同等の結果が得られた。
論文 参考訳(メタデータ) (2023-10-10T08:46:10Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Large Language Models for Multi-label Propaganda Detection [0.0]
マルチラベル環境下でのプロパガンダ検出処理を行うWANLP 2022共有タスクに対するアプローチについて述べる。
このタスクは、与えられたテキストを1つ以上のプロパガンダ技術を持つものとしてラベル付けするようモデルに要求する。
5つのモデルのアンサンブルがタスクで最高のパフォーマンスを示し、マイクロF1スコアは59.73%である。
論文 参考訳(メタデータ) (2022-10-15T06:47:31Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Leveraging Declarative Knowledge in Text and First-Order Logic for
Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。
本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T13:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。