論文の概要: Detecting Propaganda Techniques in Code-Switched Social Media Text
- arxiv url: http://arxiv.org/abs/2305.14534v1
- Date: Tue, 23 May 2023 21:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:28:03.417146
- Title: Detecting Propaganda Techniques in Code-Switched Social Media Text
- Title(参考訳): コードスイッチ型ソーシャルメディアテキストにおけるプロパガンダ手法の検出
- Authors: Muhammad Umar Salman, Asif Hanif, Shady Shehata, Preslav Nakov
- Abstract要約: コードスイッチトテキストにおけるプロパガンダのテクニックを検出するための新しいタスクを提案する。
我々は、20のプロパガンダ技術で注釈付けされた、英語とローマ・ウルドゥー語の間の1030のテキストのコーパスを作成した。
コードとデータセットはhttps://github.com/mbzuai-nlp/propaganda-codeswitched-textで公開されている。
- 参考スコア(独自算出の注目度): 19.364197719840316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Propaganda is a form of communication intended to influence the opinions and
the mindset of the public to promote a particular agenda. With the rise of
social media, propaganda has spread rapidly, leading to the need for automatic
propaganda detection systems. Most work on propaganda detection has focused on
high-resource languages, such as English, and little effort has been made to
detect propaganda for low-resource languages. Yet, it is common to find a mix
of multiple languages in social media communication, a phenomenon known as
code-switching. Code-switching combines different languages within the same
text, which poses a challenge for automatic systems. With this in mind, here we
propose the novel task of detecting propaganda techniques in code-switched
text. To support this task, we create a corpus of 1,030 texts code-switching
between English and Roman Urdu, annotated with 20 propaganda techniques, which
we make publicly available. We perform a number of experiments contrasting
different experimental setups, and we find that it is important to model the
multilinguality directly (rather than using translation) as well as to use the
right fine-tuning strategy. The code and the dataset are publicly available at
https://github.com/mbzuai-nlp/propaganda-codeswitched-text
- Abstract(参考訳): プロパガンダ(Propaganda)とは、特定の議題を広めるために、人々の意見や考え方に影響を与えるためのコミュニケーション形態である。
ソーシャルメディアの普及に伴い、プロパガンダは急速に普及し、自動プロパガンダ検出システムの必要性が高まっている。
プロパガンダ検出に関するほとんどの研究は、英語などの高リソース言語に焦点を当てており、低リソース言語のためのプロパガンダを検出する努力はほとんど行われていない。
しかし、コードスイッチングとして知られる現象であるソーシャルメディアコミュニケーションでは、複数の言語が混在しているのが一般的である。
コードスイッチングは同じテキスト内で異なる言語を組み合わせることで、自動システムに挑戦する。
そこで本研究では,コードスイッチトテキスト中のプロパガンダ技術を検出する新しいタスクを提案する。
このタスクを支援するために、20のプロパガンダ技術で注釈付けされた英語とローマ・ウルドゥー語をコードスイッチする1,030のコーパスを作成し、公開します。
我々は,異なる実験装置と対比する実験を多数実施し,多言語性を(翻訳ではなく)直接モデル化し,適切な微調整戦略を用いることが重要であることを確認した。
コードとデータセットはhttps://github.com/mbzuai-nlp/propaganda-codeswitched-textで公開されている。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Contextual Hate Speech Detection in Code Mixed Text using Transformer
Based Approaches [0.0]
我々は,Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。
通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。
独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。
論文 参考訳(メタデータ) (2021-10-18T14:05:36Z) - Detecting Propaganda Techniques in Memes [32.209606526323945]
本稿では,ミームで使用されるプロパガンダのタイプを検出するマルチラベルマルチモーダルタスクを提案する。
950ミームの新しいコーパスを作成してリリースし、22のプロパガンダテクニックを慎重に注釈付けして、テキスト、画像、または両方に表示します。
コーパスを解析した結果,両モードを同時に理解することが,これらの手法の検出に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2021-08-07T11:56:52Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Cross-Domain Learning for Classifying Propaganda in Online Contents [67.10699378370752]
本稿では,ラベル付き文書や,ニュースやつぶやきからの文をベースとしたクロスドメイン学習の手法を提案する。
本実験は,本手法の有効性を実証し,移動過程におけるソースやターゲットの様々な構成における困難さと限界を同定する。
論文 参考訳(メタデータ) (2020-11-13T10:19:13Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Leveraging Declarative Knowledge in Text and First-Order Logic for
Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。
本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T13:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。