論文の概要: MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection
- arxiv url: http://arxiv.org/abs/2502.08319v1
- Date: Wed, 12 Feb 2025 11:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:46.747081
- Title: MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection
- Title(参考訳): MultiProSE: Propaganda, Sentiment, Emotion Detectionのための多ラベルアラビアデータセット
- Authors: Lubna Al-Henaki, Hend Al-Khalifa, Abdulmalik Al-Salman, Hajar Alqubayshi, Hind Al-Twailay, Gheeda Alghamdi, Hawra Aljasim,
- Abstract要約: このデータセットは8000の注釈付きニュース記事で構成されており、これはこれまでで最大のプロパガンダデータセットである。
各タスクに対して、GPT-4o-miniやプレトレーニング言語モデル(PLM)など、大きな言語モデル(LLM)を使用して、いくつかのベースラインが開発されている。
データセット、アノテーションガイドライン、ソースコードはすべて、アラビア語のモデルにおける将来の研究と開発を促進するために公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Propaganda is a form of persuasion that has been used throughout history with the intention goal of influencing people's opinions through rhetorical and psychological persuasion techniques for determined ends. Although Arabic ranked as the fourth most- used language on the internet, resources for propaganda detection in languages other than English, especially Arabic, remain extremely limited. To address this gap, the first Arabic dataset for Multi-label Propaganda, Sentiment, and Emotion (MultiProSE) has been introduced. MultiProSE is an open-source extension of the existing Arabic propaganda dataset, ArPro, with the addition of sentiment and emotion annotations for each text. This dataset comprises 8,000 annotated news articles, which is the largest propaganda dataset to date. For each task, several baselines have been developed using large language models (LLMs), such as GPT-4o-mini, and pre-trained language models (PLMs), including three BERT-based models. The dataset, annotation guidelines, and source code are all publicly released to facilitate future research and development in Arabic language models and contribute to a deeper understanding of how various opinion dimensions interact in news media1.
- Abstract(参考訳): プロパガンダ(Propaganda)は、決定された目的のために修辞的・心理的な説得技術を通じて人々の意見に影響を与えることを意図して、歴史を通じて使われてきた説得の形式である。
アラビア語はインターネット上で第4位にランクされているが、英語、特にアラビア語以外の言語でのプロパガンダ検出の資源は非常に限られている。
このギャップに対処するため、マルチラベルPropaganda、Sentiment、Emotion(MultiProSE)のための最初のアラビア語データセットが導入された。
MultiProSEは、既存のアラビアのプロパガンダデータセットArProのオープンソース拡張であり、各テキストに対する感情と感情アノテーションが追加されている。
このデータセットは8000の注釈付きニュース記事で構成されており、これはこれまでで最大のプロパガンダデータセットである。
各タスクに対して、GPT-4o-miniや3つのBERTベースのモデルを含む事前学習言語モデル(PLM)のような大きな言語モデル(LLM)を使用して、いくつかのベースラインが開発されている。
データセット、アノテーションガイドライン、ソースコードはすべて、アラビア語モデルにおける将来の研究と開発を促進するために公開されており、様々な意見次元がニュースメディア1でどのように相互作用するかについてより深く理解している。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Exposing propaganda: an analysis of stylistic cues comparing human
annotations and machine classification [0.7749297275724032]
本稿では,プロパガンダの言語とそのスタイル的特徴について検討する。
プロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるPPNデータセットを提示する。
我々は,アノテーションが使用する手がかりを識別するために異なるNLP手法を提案し,それらを機械分類と比較した。
論文 参考訳(メタデータ) (2024-02-06T07:51:54Z) - Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Dataset of Propaganda Techniques of the State-Sponsored Information
Operation of the People's Republic of China [0.0]
本研究の目的は,Twitterが提供する状態支援情報操作データセットに基づいて,マンダリンに多ラベルプロパガンダ技術データセットを提供することにより,情報ギャップを埋めることである。
データセットの提示に加えて、細調整されたBERTを用いて複数ラベルのテキスト分類を適用する。
論文 参考訳(メタデータ) (2021-06-14T16:11:13Z) - Sentiment Classification in Swahili Language Using Multilingual BERT [0.04297070083645048]
本研究は、現在の最新モデルである多言語BERTを用いて、スワヒリデータセットの感情分類を行う。
このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。
モデルは微調整され、最高の精度は87.59%に達した。
論文 参考訳(メタデータ) (2021-04-19T01:47:00Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。