論文の概要: From Scarcity to Capability: Empowering Fake News Detection in Low-Resource Languages with LLMs
- arxiv url: http://arxiv.org/abs/2501.09604v1
- Date: Thu, 16 Jan 2025 15:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:39.503211
- Title: From Scarcity to Capability: Empowering Fake News Detection in Low-Resource Languages with LLMs
- Title(参考訳): 空き地から能力へ:LLMを用いた低リソース言語におけるフェイクニュース検出の活用
- Authors: Hrithik Majumdar Shibu, Shrestha Datta, Md. Sumon Miah, Nasrullah Sami, Mahruba Sharmin Chowdhury, Md. Saiful Islam,
- Abstract要約: BanFakeNews-2.0は、Bangla偽ニュース検出を強化する堅牢なデータセットである。
このバージョンには、信頼できる情報源から検証された、慎重にキュレートされた偽のニュース記事が11700件追加されている。
さらに、460件の偽ニュースと540件の真正ニュースを手作業で収集した独立したテストセットを作成しました。
- 参考スコア(独自算出の注目度): 0.6086698578975425
- License:
- Abstract: The rapid spread of fake news presents a significant global challenge, particularly in low-resource languages like Bangla, which lack adequate datasets and detection tools. Although manual fact-checking is accurate, it is expensive and slow to prevent the dissemination of fake news. Addressing this gap, we introduce BanFakeNews-2.0, a robust dataset to enhance Bangla fake news detection. This version includes 11,700 additional, meticulously curated fake news articles validated from credible sources, creating a proportional dataset of 47,000 authentic and 13,000 fake news items across 13 categories. In addition, we created a manually curated independent test set of 460 fake and 540 authentic news items for rigorous evaluation. We invest efforts in collecting fake news from credible sources and manually verified while preserving the linguistic richness. We develop a benchmark system utilizing transformer-based architectures, including fine-tuned Bidirectional Encoder Representations from Transformers variants (F1-87\%) and Large Language Models with Quantized Low-Rank Approximation (F1-89\%), that significantly outperforms traditional methods. BanFakeNews-2.0 offers a valuable resource to advance research and application in fake news detection for low-resourced languages. We publicly release our dataset and model on Github to foster research in this direction.
- Abstract(参考訳): フェイクニュースの急速な普及は、特に適切なデータセットや検出ツールが欠如しているBanglaのような低リソース言語において、重要なグローバルな課題を示している。
手動の事実チェックは正確だが、偽ニュースの拡散を防ぐために高価で遅い。
このギャップに対処するために、Bangla偽ニュース検出を強化する堅牢なデータセットであるBanFakeNews-2.0を導入する。
このバージョンでは、信頼できる情報源から検証された偽ニュース記事が11700件追加され、13のカテゴリーで47,000件、偽ニュース記事が13,000件に比例するデータセットが作成されている。
さらに、厳密な評価のために、460個の偽ニュースと540個の真正ニュースを手作業で収集した独立したテストセットを作成しました。
信頼性のある情報源から偽ニュースを収集し,言語豊かさを保ちながら手作業による検証を行う。
トランスフォーマーの変種(F1-87\%)と量子化低ランク近似(F1-89\%)を用いた大規模言語モデル(F1-89\%)を微調整した双方向エンコーダ表現を含むトランスフォーマーアーキテクチャを利用したベンチマークシステムを開発した。
BanFakeNews-2.0は、低リソース言語に対する偽ニュース検出の研究と応用を促進する貴重なリソースを提供する。
私たちは、この方向の研究を促進するために、データセットとモデルをGithubで公開しています。
関連論文リスト
- Detection of Human and Machine-Authored Fake News in Urdu [2.013675429941823]
ソーシャルメディアは偽ニュースの拡散を増幅した。
従来の偽ニュース検出手法は、言語的手がかりに依存しているため、効果が低くなる。
精度とロバスト性を改善するため,階層的検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T12:42:07Z) - MCFEND: A Multi-source Benchmark Dataset for Chinese Fake News Detection [5.288018460787191]
純粋に1つのニュースソースで訓練された方法は、現実のシナリオにはほとんど適用できない。
MCFENDと呼ばれる中国の偽ニュース検出のための、最初のマルチソースベンチマークデータセットを構築した。
MCFENDは、ベンチマークデータセットとして、中国の偽ニュース検出アプローチを現実世界のシナリオで前進させることを目的としている。
論文 参考訳(メタデータ) (2024-03-14T04:32:13Z) - Adapting Fake News Detection to the Era of Large Language Models [48.5847914481222]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese [0.6775616141339018]
本稿ではブラジルポルトガル語における偽ニュースの検出に関する総合的研究について述べる。
本稿では、TF-IDFやWord2Vecといった自然言語処理技術を活用する機械学習ベースのアプローチを提案する。
ユーザフレンドリーなWebプラットフォームである fakenewsbr.com を開発し,ニュース記事の妥当性の検証を容易にする。
論文 参考訳(メタデータ) (2023-09-20T04:10:03Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - User Preference-aware Fake News Detection [61.86175081368782]
既存の偽ニュース検出アルゴリズムは、詐欺信号のニュースコンテンツをマイニングすることに焦点を当てている。
本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。
論文 参考訳(メタデータ) (2021-04-25T21:19:24Z) - BanFakeNews: A Dataset for Detecting Fake News in Bangla [1.4170999534105675]
自動フェイクニュース検知システムの構築に使用できる50Kニュースの注釈付きデータセットを提案する。
我々は,Bangla偽ニュースを識別するためのNLP技術の現状を示すベンチマークシステムを開発した。
論文 参考訳(メタデータ) (2020-04-19T07:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。