論文の概要: Exposing propaganda: an analysis of stylistic cues comparing human
annotations and machine classification
- arxiv url: http://arxiv.org/abs/2402.03780v2
- Date: Wed, 7 Feb 2024 09:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 11:46:35.588647
- Title: Exposing propaganda: an analysis of stylistic cues comparing human
annotations and machine classification
- Title(参考訳): 公開プロパガンダ:人間のアノテーションと機械分類を比較したスタイリスティックな方法の分析
- Authors: G\'eraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson,
Fran\c{c}ois Maine, Fran\c{c}ois Bancilhon, Guillaume Gadek, Guillaume
Gravier, Paul \'Egr\'e
- Abstract要約: 本稿では,プロパガンダの言語とそのスタイル的特徴について検討する。
プロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるPPNデータセットを提示する。
我々は,アノテーションが使用する手がかりを識別するために異なるNLP手法を提案し,それらを機械分類と比較した。
- 参考スコア(独自算出の注目度): 0.7749297275724032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the language of propaganda and its stylistic
features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a
multisource, multilingual, multimodal dataset composed of news articles
extracted from websites identified as propaganda sources by expert agencies. A
limited sample from this set was randomly mixed with papers from the regular
French press, and their URL masked, to conduct an annotation-experiment by
humans, using 11 distinct labels. The results show that human annotators were
able to reliably discriminate between the two types of press across each of the
labels. We propose different NLP techniques to identify the cues used by the
annotators, and to compare them with machine classification. They include the
analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to
serve as a baseline, and four different classifiers: two RoBERTa-based models,
CATS using syntax, and one XGBoost combining syntactic and semantic features.
- Abstract(参考訳): 本稿では,プロパガンダの言語とその様式的特徴について検討する。
Pseudo-Newsは、専門家機関によってプロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるマルチソース、多言語、マルチモーダルデータセットである。
このセットの限られたサンプルは、通常のフランスの報道機関の論文とランダムに混同され、そのURLがマスクされ、11の異なるラベルを使って人による注釈実験が行われた。
その結果,ヒトのアノテータは各ラベル間で2種類のプレスを確実に識別することができた。
アノテーションが使用するキューを識別するための異なるNLP手法を提案し,それらを機械分類と比較する。
これには、談話の曖昧さと主観性を測定するためのアナライザVAGO、ベースラインとして機能するTF-IDF、および2つのRoBERTaベースのモデル、構文を用いたCATS、構文と意味的特徴を組み合わせた1つのXGBoostの4つの異なる分類器が含まれる。
関連論文リスト
- How Language Models Prioritize Contextual Grammatical Cues? [3.9790222241649587]
複数のジェンダーキュー語が存在する場合、言語モデルがジェンダー合意をどのように扱うかを検討する。
この結果から,エンコーダベースのモデルとデコーダベースのモデルでは,予測にコンテキスト情報を優先し,使用する方法に顕著な違いが認められた。
論文 参考訳(メタデータ) (2024-10-04T14:09:05Z) - MemeMind at ArAIEval Shared Task: Spotting Persuasive Spans in Arabic Text with Persuasion Techniques Identification [0.10120650818458249]
本稿では,ツイートやニュース段落からアラビア語テキスト中の伝搬的スパンと説得技術を検出することに焦点を当てる。
提案手法はF1スコア0.2774を達成し,タスク1のリーダーボードにおける第3位を確保した。
論文 参考訳(メタデータ) (2024-08-08T15:49:01Z) - A Multi-Label Dataset of French Fake News: Human and Machine Insights [0.5533610982157059]
専門機関が信頼できないと思われる17のフランスの報道機関から選抜された100の文書のコーパスOBSINFOXを提示する。
通常よりも多くのラベルを収集することで、人間が偽ニュースの特徴と見なす特徴を特定できる。
コーパスにおける風刺文の有病率を示すGate Cloudを用いたトピックスとジャンル分析について述べる。
論文 参考訳(メタデータ) (2024-03-24T11:29:55Z) - HuBERTopic: Enhancing Semantic Representation of HuBERT through
Self-supervision Utilizing Topic Model [62.995175485416]
本稿では,HuBERTのセマンティック表現を豊かにするための新しいアプローチを提案する。
トピックラベルを教師として使用することにより、HuBERTに補助的なトピック分類タスクを追加する。
実験の結果,本手法は,ほとんどのタスクにおいて,ベースラインと同等あるいは優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-06T02:19:09Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - BPGC at SemEval-2020 Task 11: Propaganda Detection in News Articles with
Multi-Granularity Knowledge Sharing and Linguistic Features based Ensemble
Learning [2.8913142991383114]
SemEval 2020 Task-11はニュースプロパガンダ検出のための自動システムの設計を目的としている。
Task-11 は2つのサブタスク、すなわち Span Identification と Technique Classification から構成される。
論文 参考訳(メタデータ) (2020-05-31T19:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。