論文の概要: MemeMind at ArAIEval Shared Task: Spotting Persuasive Spans in Arabic Text with Persuasion Techniques Identification
- arxiv url: http://arxiv.org/abs/2408.04540v1
- Date: Thu, 8 Aug 2024 15:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:08:24.440277
- Title: MemeMind at ArAIEval Shared Task: Spotting Persuasive Spans in Arabic Text with Persuasion Techniques Identification
- Title(参考訳): ArAIEval Shared Task における MemeMind: Persuasive Spans in Arabic Text with Persuasion Techniques Identification
- Authors: Md Rafiul Biswas, Zubair Shah, Wajdi Zaghouani,
- Abstract要約: 本稿では,ツイートやニュース段落からアラビア語テキスト中の伝搬的スパンと説得技術を検出することに焦点を当てる。
提案手法はF1スコア0.2774を達成し,タスク1のリーダーボードにおける第3位を確保した。
- 参考スコア(独自算出の注目度): 0.10120650818458249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on detecting propagandistic spans and persuasion techniques in Arabic text from tweets and news paragraphs. Each entry in the dataset contains a text sample and corresponding labels that indicate the start and end positions of propaganda techniques within the text. Tokens falling within a labeled span were assigned "B" (Begin) or "I" (Inside), "O", corresponding to the specific propaganda technique. Using attention masks, we created uniform lengths for each span and assigned BIO tags to each token based on the provided labels. Then, we used AraBERT-base pre-trained model for Arabic text tokenization and embeddings with a token classification layer to identify propaganda techniques. Our training process involves a two-phase fine-tuning approach. First, we train only the classification layer for a few epochs, followed by full model fine-tuning, updating all parameters. This methodology allows the model to adapt to the specific characteristics of the propaganda detection task while leveraging the knowledge captured by the pre-trained AraBERT model. Our approach achieved an F1 score of 0.2774, securing the 3rd position in the leaderboard of Task 1.
- Abstract(参考訳): 本稿では,ツイートやニュース段落からアラビア語テキスト中の伝搬的スパンと説得技術を検出することに焦点を当てる。
データセットの各エントリには、テキストサンプルと、テキスト内のプロパガンダテクニックの開始位置と終了位置を示す対応するラベルが含まれている。
特定のプロパガンダ技術に対応する「B」(ベギン)または「I」(インサイド)、「O」(オ)が付けられた。
注意マスクを用いて各スパンに均一な長さを作成し,提供されたラベルに基づいて各トークンにBIOタグを割り当てた。
次に、アラビア文字のトークン化とトークン分類層への埋め込みのために、AraBERTベースの事前学習モデルを用いて、プロパガンダのテクニックを同定した。
トレーニングプロセスには2段階の微調整アプローチが伴います。
まず、いくつかのエポックに対して分類層のみをトレーニングし、続いて完全なモデル微調整を行い、すべてのパラメータを更新します。
この手法により、事前学習されたAraBERTモデルによって得られた知識を活用しながら、プロパガンダ検出タスクの特定の特性に適応することができる。
提案手法はF1スコア0.2774を達成し,タスク1のリーダーボードにおける第3位を確保した。
関連論文リスト
- Exposing propaganda: an analysis of stylistic cues comparing human
annotations and machine classification [0.7749297275724032]
本稿では,プロパガンダの言語とそのスタイル的特徴について検討する。
プロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるPPNデータセットを提示する。
我々は,アノテーションが使用する手がかりを識別するために異なるNLP手法を提案し,それらを機械分類と比較した。
論文 参考訳(メタデータ) (2024-02-06T07:51:54Z) - HuBERTopic: Enhancing Semantic Representation of HuBERT through
Self-supervision Utilizing Topic Model [62.995175485416]
本稿では,HuBERTのセマンティック表現を豊かにするための新しいアプローチを提案する。
トピックラベルを教師として使用することにより、HuBERTに補助的なトピック分類タスクを追加する。
実験の結果,本手法は,ほとんどのタスクにおいて,ベースラインと同等あるいは優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-06T02:19:09Z) - Hierarchical Multi-Instance Multi-Label Learning for Detecting
Propaganda Techniques [12.483639681339767]
本稿では,記事中の全スパンを同時に分類するシンプルなRoBERTaモデルを提案する。
決定木の各ノードに補助的な分類子を追加することで階層的なラベル依存を組み込む。
我々のモデルは、クロスバリデーション設定で共有タスク勝利チームからモデルに対して2.47%のマイクロF1を絶対的に改善します。
論文 参考訳(メタデータ) (2023-05-30T21:23:19Z) - ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD [0.0]
本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルについて述べる。
ラベル付きアラビア・コンテクスト・グロス・ペアのデータセットを構築した。
各ペアはTrueまたはFalseとラベル付けされ、各コンテキストのターゲット語が識別され、注釈が付けられた。
論文 参考訳(メタデータ) (2022-05-19T16:47:18Z) - Pre-trained Token-replaced Detection Model as Few-shot Learner [31.40447168356879]
ELECTRAのような事前訓練されたトークン置換検出モデルを用いて,少数ショット学習のための新しい手法を提案する。
16のデータセットの体系的評価により,事前学習されたマスキング言語モデルを用いた数発の学習者よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-07T09:47:53Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z) - Leveraging Declarative Knowledge in Text and First-Order Logic for
Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。
本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T13:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。