論文の概要: The 2021 Urdu Fake News Detection Task using Supervised Machine Learning
and Feature Combinations
- arxiv url: http://arxiv.org/abs/2204.03064v1
- Date: Wed, 6 Apr 2022 20:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-04-08 14:41:16.202475
- Title: The 2021 Urdu Fake News Detection Task using Supervised Machine Learning
and Feature Combinations
- Title(参考訳): 教師付き機械学習と特徴の組み合わせを用いた2021年ウルドゥ偽ニュース検出タスク
- Authors: Muhammad Humayoun
- Abstract要約: 本稿では,FIRE共有タスクで提出されたシステム記述について述べる:「ウルドゥー語におけるフェイクニュース検出」。
私たちのモデルの1つで達成された最高のF1マクロスコアは0.6674であり、競争で2番目に高いスコアよりも高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the system description submitted at the FIRE Shared Task:
"The 2021 Fake News Detection in the Urdu Language". This challenge aims at
automatically identifying Fake news written in Urdu. Our submitted results
ranked fifth in the competition. However, after the result declaration of the
competition, we managed to attain even better results than the submitted
results. The best F1 Macro score achieved by one of our models is 0.6674,
higher than the second-best score in the competition. The result is achieved on
Support Vector Machines (polynomial kernel degree 1) with stopwords removed,
lemmatization applied, and selecting the 20K best features out of 1.557 million
features in total (which were produced by Word n-grams n=1,2,3,4 and Char
n-grams n=2,3,4,5,6). The code is made available for reproducibility.
- Abstract(参考訳): 本稿では,FIRE共有タスクで提出されたシステム記述について述べる:「ウルドゥー語における2021年フェイクニュース検出」。
この課題は、urduで書かれた偽ニュースを自動的に識別することを目的としている。
私たちの提出した結果は大会で5位だった。
しかし、競争の結果が宣言された後、私たちは提出された結果よりもさらに良い結果を得ることができました。
私たちのモデルの1つで達成された最高のF1マクロスコアは0.6674であり、競争で2番目に高いスコアよりも高い。
その結果、Support Vector Machines (polynomial kernel degree 1) において、停止語を除去し、補題を適用し、合計1.57万のフィーチャのうち20Kのベストプラクティスを選択する(Word n-grams n=1,2,3,4 と Char n-grams n=2,3,4,5,6)。
コードは再現可能になっている。
関連論文リスト
- Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Abusive and Threatening Language Detection in Urdu using Supervised
Machine Learning and Feature Combinations [0.0]
本稿では,Urduの虐待・脅威言語検出タスク(Abusive and Threatening Language Detection Task)において,FIRE共有タスク2021に提出されたシステム記述について述べる。
我々のモデルはタスクAで0.8318 F1、タスクBで0.4931 F1、タスクAで0.8318 F1、タスクBで0.4931 F1を達成しました。
論文 参考訳(メタデータ) (2022-04-06T19:57:31Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - TTTTTackling WinoGrande Schemas [56.268862325167575]
我々は、AI2 WinoGrande Challengeに取り組むために、T5シーケンス・ツー・シーケンスモデルを使用した。
それぞれの例を2つの入力文字列に分解し、それぞれに仮説を含ませ、仮説のスコアとして"entailment"トークンに割り当てられた確率を使用する。
2020年3月13日、私たちの公式のリーダーボードへの最初の提出は0.7673 AUCであり、これはこの時点で最もよく知られている結果であり、前回の成果を5ポイント以上上回った。
論文 参考訳(メタデータ) (2020-03-18T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。