論文の概要: Misinformation detection in Luganda-English code-mixed social media text
- arxiv url: http://arxiv.org/abs/2104.00124v1
- Date: Wed, 31 Mar 2021 21:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 08:09:52.717854
- Title: Misinformation detection in Luganda-English code-mixed social media text
- Title(参考訳): Luganda-British-mixed social media textにおける誤情報検出
- Authors: Peter Nabende, David Kabiito, Claire Babirye, Hewitt Tusiime, Joyce
Nakatumba-Nabende
- Abstract要約: 40の異なるウガンダ語言語のいずれにも誤情報検出ツールは存在しない。
本稿では,コード混合luganda-englishメッセージに基づく基本言語資源と誤情報検出データについて述べる。
分類モデルを開発するために,誤情報検出データセットにいくつかの機械学習手法を適用した。
- 参考スコア(独自算出の注目度): 0.5074812070492739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing occurrence, forms, and negative effects of misinformation on
social media platforms has necessitated more misinformation detection tools.
Currently, work is being done addressing COVID-19 misinformation however, there
are no misinformation detection tools for any of the 40 distinct indigenous
Ugandan languages. This paper addresses this gap by presenting basic language
resources and a misinformation detection data set based on code-mixed
Luganda-English messages sourced from the Facebook and Twitter social media
platforms. Several machine learning methods are applied on the misinformation
detection data set to develop classification models for detecting whether a
code-mixed Luganda-English message contains misinformation or not. A 10-fold
cross validation evaluation of the classification methods in an experimental
misinformation detection task shows that a Discriminative Multinomial Naive
Bayes (DMNB) method achieves the highest accuracy and F-measure of 78.19% and
77.90% respectively. Also, Support Vector Machine and Bagging ensemble
classification models achieve comparable results. These results are promising
since the machine learning models are based on n-gram features from only the
misinformation detection dataset.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける誤情報の発生、形態、ネガティブな影響は、より誤情報検出ツールを必要としている。
現在、covid-19の誤った情報を扱う作業が行われているが、40の異なるウガンダの言語に誤情報検出ツールはない。
本稿では,Facebook と Twitter のソーシャルメディアプラットフォームから発信されるLuganda- English のコード混在に基づく,基本言語リソースと誤情報検出データセットを提示することで,このギャップに対処する。
誤情報検出データセットにいくつかの機械学習手法を適用し、コード混合luganda英語メッセージが誤情報を含むか否かを検出する分類モデルを開発する。
実験的誤情報検出タスクにおける分類法の10倍のクロス検証評価により、識別的多項ベイズ(dmnb)法は、それぞれ78.19%および77.90%の精度とf測定値を達成する。
また、Support Vector MachineとBaggingのアンサンブル分類モデルも同等の結果を得る。
これらの結果は、機械学習モデルは誤情報検出データセットのみからのn-gram特徴に基づいているため、有望である。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - Fighting Fire with Fire: Adversarial Prompting to Generate a
Misinformation Detection Dataset [10.860133543817659]
誤報を識別するために, LLM を用いた銀標準地下構造データセットの作成手法を提案する。
具体的には、信頼できるニュース記事を考えると、我々の提案するアプローチは、LLMが元の記事の要約されたバージョンを自動的に生成するように促すことである。
本データセットの有用性を検討するために,誤情報検出のタスクに対して,教師付きモデルの範囲をトレーニングする一連の実験を行った。
論文 参考訳(メタデータ) (2024-01-09T10:38:13Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News [8.020736472947581]
新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T13:55:59Z) - Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets [0.15229257192293202]
インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-06-30T15:33:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。