論文の概要: Approaches for Improving the Performance of Fake News Detection in
Bangla: Imbalance Handling and Model Stacking
- arxiv url: http://arxiv.org/abs/2203.11486v1
- Date: Tue, 22 Mar 2022 06:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:47:56.339626
- Title: Approaches for Improving the Performance of Fake News Detection in
Bangla: Imbalance Handling and Model Stacking
- Title(参考訳): バングラデシュにおけるフェイクニュース検出の性能向上のためのアプローチ:不均衡ハンドリングとモデルスタッキング
- Authors: Md Muzakker Hossain, Zahin Awosaf, Md. Salman Hossan Prottoy, Abu
Saleh Muhammod Alvy, Md. Kishor Morol
- Abstract要約: 不均衡なデータセットは、偽ニュースの検出に偏りをもたらす可能性がある。
バングラのフェイクニュース検出における不均衡問題を解消するためのいくつかの戦略を提案する。
また,データセットが不均衡であっても,性能向上のための手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imbalanced datasets can lead to biasedness into the detection of fake news.
In this work, we present several strategies for resolving the imbalance issue
for fake news detection in Bangla with a comparative assessment of proposed
methodologies. Additionally, we propose a technique for improving performance
even when the dataset is imbalanced. We applied our proposed approaches to
BanFakeNews, a dataset developed for the purpose of detecting fake news in
Bangla comprising of 50K instances but is significantly skewed, with 97% of
majority instances. We obtained a 93.1% F1-score using data manipulation
manipulation techniques such as SMOTE, and a 79.1% F1-score using without data
manipulation approaches such as Stacked Generalization. Without implementing
these techniques, the F1-score would have been 67.6% for baseline models. We
see this work as an important step towards paving the way of fake news
detection in Bangla. By implementing these strategies the obstacles of
imbalanced dataset can be removed and improvement in the performance can be
achieved.
- Abstract(参考訳): 不均衡なデータセットは偽ニュースの検出に偏りをもたらす可能性がある。
本稿では,バングラデシュにおける偽ニュース検出の不均衡問題を解決するためのいくつかの戦略について,提案手法の比較評価を行った。
さらに,データセットが不均衡であっても性能を向上させる手法を提案する。
提案手法をbanfakenewsに適用した。banfakenewsは、バングラで50万のインスタンスからなる偽ニュースを検出する目的で開発されたデータセットで、大多数のインスタンスの97%で著しく歪んでいる。
smoteのようなデータ操作操作技術を用いて93.1%のf1-scoreを、スタック一般化のようなデータ操作アプローチを使わずに79.1%のf1-scoreを得た。
これらの技術がなければ、F1スコアは67.6%のベースラインモデルであった。
この作業は、バングラで偽ニュースを検出するための重要なステップだと考えています。
これらの戦略を実装することで、不均衡データセットの障害を取り除き、パフォーマンスを改善することができる。
関連論文リスト
- Tackling Fake News in Bengali: Unraveling the Impact of Summarization
vs. Augmentation on Pre-trained Language Models [0.0]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - FedVal: Different good or different bad in federated learning [9.558549875692808]
フェデレート・ラーニング(FL)システムは悪意のあるアクターからの攻撃を受けやすい。
FLは、異なる人口集団の公正なパフォーマンスを保証するなど、グループの偏見に対処する上で、新たな課題を提起する。
このようなバイアスに対処するために使用される従来の方法は、FLシステムが持っていないデータへの集中的なアクセスを必要とする。
我々は、クライアントからの追加情報を必要としない堅牢性と公正性の両方に対して、新しいアプローチであるFedValを提案する。
論文 参考訳(メタデータ) (2023-06-06T22:11:13Z) - NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and
Semi-Supervised Learning Techniques on Text Classification Performance on an
Imbalanced Dataset [1.3445335428144554]
本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。
この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
論文 参考訳(メタデータ) (2023-04-25T14:19:46Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - DEAP-FAKED: Knowledge Graph based Approach for Fake News Detection [0.04834203844100679]
フェイクニュースを識別するためのノウレDgE grAPh FAKe nEws検出フレームワークを提案する。
私たちのアプローチは、ニュースコンテンツをエンコードするNLPと、知識グラフをエンコードするGNNテクニックを組み合わせたものです。
政治,ビジネス,技術,医療といった分野の記事を含む2つの公開データセットを用いて,我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2021-07-04T07:09:59Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。
本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。
このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。