論文の概要: Tackling Fake News in Bengali: Unraveling the Impact of Summarization
vs. Augmentation on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2307.06979v1
- Date: Thu, 13 Jul 2023 14:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:00:30.511136
- Title: Tackling Fake News in Bengali: Unraveling the Impact of Summarization
vs. Augmentation on Pre-trained Language Models
- Title(参考訳): ベンガル語で偽ニュースに取り組む - 要約と拡張が事前学習した言語モデルに与える影響を解き放つ
- Authors: Arman Sakif Chowdhury, G. M. Shahariar, Ahammed Tarik Aziz, Syed
Mohibul Alam, Md. Azad Sheikh, Tanveer Ahmed Belal
- Abstract要約: ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of social media and online news sources, fake news has become a
significant issue globally. However, the detection of fake news in low resource
languages like Bengali has received limited attention in research. In this
paper, we propose a methodology consisting of four distinct approaches to
classify fake news articles in Bengali using summarization and augmentation
techniques with five pre-trained language models. Our approach includes
translating English news articles and using augmentation techniques to curb the
deficit of fake news articles. Our research also focused on summarizing the
news to tackle the token length limitation of BERT based models. Through
extensive experimentation and rigorous evaluation, we show the effectiveness of
summarization and augmentation in the case of Bengali fake news detection. We
evaluated our models using three separate test datasets. The BanglaBERT Base
model, when combined with augmentation techniques, achieved an impressive
accuracy of 96% on the first test dataset. On the second test dataset, the
BanglaBERT model, trained with summarized augmented news articles achieved 97%
accuracy. Lastly, the mBERT Base model achieved an accuracy of 86% on the third
test dataset which was reserved for generalization performance evaluation. The
datasets and implementations are available at
https://github.com/arman-sakif/Bengali-Fake-News-Detection
- Abstract(参考訳): ソーシャルメディアやオンラインニュースソースの台頭により、フェイクニュースは世界中で大きな問題となっている。
しかし、ベンガルのような低リソース言語における偽ニュースの検出は、研究において限られた注目を集めている。
本稿では,ベンガル語における偽ニュース記事の分類方法として,5つの事前学習言語モデルを用いた要約と拡張手法を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
我々の研究は、BERTベースのモデルのトークン長制限に対処するため、ニュースの要約にも重点を置いている。
広範な実験と厳密な評価を通じて,ベンガルの偽ニュース検出における要約と補足の有効性を示す。
モデルを3つのテストデータセットで評価しました。
BanglaBERTベースモデルは、拡張テクニックと組み合わせて、最初のテストデータセットで96%の精度を達成した。
第2のテストデータセットでは、要約されたニュース記事でトレーニングされたBanglaBERTモデルが97%の精度を達成した。
最後に、mBERTベースモデルは、一般化性能評価のために予約された第3のテストデータセットで86%の精度を達成した。
データセットと実装はhttps://github.com/arman-sakif/Bengali-Fake-News-Detectionで公開されている。
関連論文リスト
- A Regularized LSTM Method for Detecting Fake News Articles [0.0]
本稿では,偽ニュース記事を検出するための高度な機械学習ソリューションを開発する。
我々は、23,502の偽ニュース記事と21,417の正確なニュース記事を含む、包括的なニュース記事のデータセットを活用している。
私たちの研究は、そのようなモデルを現実世界のアプリケーションにデプロイする可能性を強調しています。
論文 参考訳(メタデータ) (2024-11-16T05:54:36Z) - Detection of news written by the ChatGPT through authorship attribution
performed by a Bidirectional LSTM model [0.0]
この研究は、ChatGPTが人口が消費するニュースを生成するために使用される特定の状況を中心にしている。
それは、ChatGPTによって書かれたものを識別し、ニュース記事の著者帰属を行う人工知能モデルを構築することを目的としている。
論文 参考訳(メタデータ) (2023-10-25T14:48:58Z) - fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese [0.6775616141339018]
本稿ではブラジルポルトガル語における偽ニュースの検出に関する総合的研究について述べる。
本稿では、TF-IDFやWord2Vecといった自然言語処理技術を活用する機械学習ベースのアプローチを提案する。
ユーザフレンドリーなWebプラットフォームである fakenewsbr.com を開発し,ニュース記事の妥当性の検証を容易にする。
論文 参考訳(メタデータ) (2023-09-20T04:10:03Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Connecting the Dots Between Fact Verification and Fake News Detection [21.564628184287173]
本稿では,事実検証と偽ニュース検出の点を結合する,シンプルで効果的な手法を提案する。
提案手法は,最近の事実検証モデルの成功を活用し,ゼロショットフェイクニュースの検出を可能にする。
論文 参考訳(メタデータ) (2020-10-11T09:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。