論文の概要: Approaches for Improving the Performance of Fake News Detection in
Bangla: Imbalance Handling and Model Stacking
- arxiv url: http://arxiv.org/abs/2203.11486v1
- Date: Tue, 22 Mar 2022 06:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:47:56.339626
- Title: Approaches for Improving the Performance of Fake News Detection in
Bangla: Imbalance Handling and Model Stacking
- Title(参考訳): バングラデシュにおけるフェイクニュース検出の性能向上のためのアプローチ:不均衡ハンドリングとモデルスタッキング
- Authors: Md Muzakker Hossain, Zahin Awosaf, Md. Salman Hossan Prottoy, Abu
Saleh Muhammod Alvy, Md. Kishor Morol
- Abstract要約: 不均衡なデータセットは、偽ニュースの検出に偏りをもたらす可能性がある。
バングラのフェイクニュース検出における不均衡問題を解消するためのいくつかの戦略を提案する。
また,データセットが不均衡であっても,性能向上のための手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imbalanced datasets can lead to biasedness into the detection of fake news.
In this work, we present several strategies for resolving the imbalance issue
for fake news detection in Bangla with a comparative assessment of proposed
methodologies. Additionally, we propose a technique for improving performance
even when the dataset is imbalanced. We applied our proposed approaches to
BanFakeNews, a dataset developed for the purpose of detecting fake news in
Bangla comprising of 50K instances but is significantly skewed, with 97% of
majority instances. We obtained a 93.1% F1-score using data manipulation
manipulation techniques such as SMOTE, and a 79.1% F1-score using without data
manipulation approaches such as Stacked Generalization. Without implementing
these techniques, the F1-score would have been 67.6% for baseline models. We
see this work as an important step towards paving the way of fake news
detection in Bangla. By implementing these strategies the obstacles of
imbalanced dataset can be removed and improvement in the performance can be
achieved.
- Abstract(参考訳): 不均衡なデータセットは偽ニュースの検出に偏りをもたらす可能性がある。
本稿では,バングラデシュにおける偽ニュース検出の不均衡問題を解決するためのいくつかの戦略について,提案手法の比較評価を行った。
さらに,データセットが不均衡であっても性能を向上させる手法を提案する。
提案手法をbanfakenewsに適用した。banfakenewsは、バングラで50万のインスタンスからなる偽ニュースを検出する目的で開発されたデータセットで、大多数のインスタンスの97%で著しく歪んでいる。
smoteのようなデータ操作操作技術を用いて93.1%のf1-scoreを、スタック一般化のようなデータ操作アプローチを使わずに79.1%のf1-scoreを得た。
これらの技術がなければ、F1スコアは67.6%のベースラインモデルであった。
この作業は、バングラで偽ニュースを検出するための重要なステップだと考えています。
これらの戦略を実装することで、不均衡データセットの障害を取り除き、パフォーマンスを改善することができる。
関連論文リスト
- Background Noise Reduction of Attention Map for Weakly Supervised Semantic Segmentation [0.0]
本稿では,TransCAM として知られる Conformer をベースとした既存 WSSS 法における注目重みの背景雑音問題に対処することに焦点を当てた。
提案手法は,背景雑音の低減に成功し,擬似ラベルの精度が向上した。
論文 参考訳(メタデータ) (2024-04-04T11:53:37Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.0]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - FedVal: Different good or different bad in federated learning [9.558549875692808]
フェデレート・ラーニング(FL)システムは悪意のあるアクターからの攻撃を受けやすい。
FLは、異なる人口集団の公正なパフォーマンスを保証するなど、グループの偏見に対処する上で、新たな課題を提起する。
このようなバイアスに対処するために使用される従来の方法は、FLシステムが持っていないデータへの集中的なアクセスを必要とする。
我々は、クライアントからの追加情報を必要としない堅牢性と公正性の両方に対して、新しいアプローチであるFedValを提案する。
論文 参考訳(メタデータ) (2023-06-06T22:11:13Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - DEAP-FAKED: Knowledge Graph based Approach for Fake News Detection [0.04834203844100679]
フェイクニュースを識別するためのノウレDgE grAPh FAKe nEws検出フレームワークを提案する。
私たちのアプローチは、ニュースコンテンツをエンコードするNLPと、知識グラフをエンコードするGNNテクニックを組み合わせたものです。
政治,ビジネス,技術,医療といった分野の記事を含む2つの公開データセットを用いて,我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2021-07-04T07:09:59Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。