論文の概要: An exploration of features to improve the generalisability of fake news detection models
- arxiv url: http://arxiv.org/abs/2502.20299v1
- Date: Thu, 27 Feb 2025 17:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:39.793010
- Title: An exploration of features to improve the generalisability of fake news detection models
- Title(参考訳): 偽ニュース検出モデルの汎用性向上のための特徴探索
- Authors: Nathaniel Hoy, Theodora Koulouri,
- Abstract要約: 既存のNLPおよび教師付き機械学習メソッドは、クロスバリデーションの下ではうまく機能するが、データセットをまたいだ一般化に苦慮する。
この問題は、記事がパブリッシャに基づいてラベル付けされる、粗いラベル付きトレーニングデータに起因している。
本研究は, 粗いラベル付きデータから意味のある特徴を抽出し, 実世界のロバスト性を向上させることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Fake news poses global risks by influencing elections and spreading misinformation, making detection critical. Existing NLP and supervised Machine Learning methods perform well under cross-validation but struggle to generalise across datasets, even within the same domain. This issue stems from coarsely labelled training data, where articles are labelled based on their publisher, introducing biases that token-based models like TF-IDF and BERT are sensitive to. While Large Language Models (LLMs) offer promise, their application in fake news detection remains limited. This study demonstrates that meaningful features can still be extracted from coarsely labelled data to improve real-world robustness. Stylistic features-lexical, syntactic, and semantic-are explored due to their reduced sensitivity to dataset biases. Additionally, novel social-monetisation features are introduced, capturing economic incentives behind fake news, such as advertisements, external links, and social media elements. The study trains on the coarsely labelled NELA 2020-21 dataset and evaluates using the manually labelled Facebook URLs dataset, a gold standard for generalisability. Results highlight the limitations of token-based models trained on biased data and contribute to the scarce evidence on LLMs like LLaMa in this field. Findings indicate that stylistic and social-monetisation features offer more generalisable predictions than token-based methods and LLMs. Statistical and permutation feature importance analyses further reveal their potential to enhance performance and mitigate dataset biases, providing a path forward for improving fake news detection.
- Abstract(参考訳): フェイクニュースは選挙に影響を及ぼし、誤報を広めることによって世界的なリスクを引き起こす。
既存のNLPおよび教師付き機械学習メソッドは、クロスバリデーションの下ではうまく機能するが、同じドメイン内であってもデータセットをまたいだ一般化に苦労する。
この問題は、記事がパブリッシャに基づいてラベル付けされる、粗いラベル付きトレーニングデータに起因しており、TF-IDFやBERTといったトークンベースのモデルが敏感であるというバイアスを導入している。
Large Language Models (LLMs) は約束を提供するが、偽ニュース検出の応用は依然として限られている。
本研究は, 粗いラベル付きデータから意味のある特徴を抽出し, 実世界のロバスト性を向上させることを実証した。
統計的特徴-語彙、構文、意味-は、データセットバイアスに対する感度の低下により探索される。
さらに、広告、外部リンク、ソーシャルメディア要素といった偽ニュースの背後にある経済的インセンティブを捉え、新たなソーシャル・モダナイゼーション機能が導入されている。
この研究は、粗いラベル付きNELA 2020-21データセットでトレーニングし、手動でラベル付けされたFacebook URLデータセットを使用して評価する。
結果は、バイアスデータに基づいてトレーニングされたトークンベースのモデルの制限を強調し、この分野におけるLLaMaのようなLLMの不足した証拠に寄与する。
トークンベースの手法やLSMよりも、スタイリスティックでソーシャルなマネタイズ機能がより一般化可能な予測を提供することを示している。
統計的および置換的特徴分析は、パフォーマンスを高め、データセットバイアスを軽減する可能性をさらに明らかにし、偽ニュースの検出を改善するための道筋を提供する。
関連論文リスト
- Fake News Detection: Comparative Evaluation of BERT-like Models and Large Language Models with Generative AI-Annotated Data [3.7409402247241643]
フェイクニュースは、現代の社会における世論と社会の安定に重大な脅威をもたらす。
本研究では,偽ニュース検出のためのBERT-like encoder-onlyモデルと自己回帰型decoder-only large language model(LLMs)の比較評価を行った。
論文 参考訳(メタデータ) (2024-12-18T19:15:17Z) - A Self-Learning Multimodal Approach for Fake News Detection [35.98977478616019]
偽ニュース分類のための自己学習型マルチモーダルモデルを提案する。
このモデルは、ラベル付きデータを必要としない機能抽出のための堅牢な手法であるコントラスト学習を利用する。
公開データセットを用いた実験結果から,提案モデルがいくつかの最先端の分類手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-08T07:41:44Z) - Revisiting Fake News Detection: Towards Temporality-aware Evaluation by Leveraging Engagement Earliness [22.349521957987672]
ソーシャルグラフに基づく偽ニュース検出は、社会的文脈を利用して偽情報を含むニュース記事を特定することを目的としている。
我々は、現実のシナリオを模倣するより現実的な評価スキームを定式化する。
従来の手法の識別能力は,この新しい設定下で急激に低下することを示す。
論文 参考訳(メタデータ) (2024-11-19T05:08:00Z) - A Systematic Review of Machine Learning Approaches for Detecting Deceptive Activities on Social Media: Methods, Challenges, and Biases [0.037693031068634524]
本稿では、機械学習(ML)モデルとディープラーニング(DL)モデルを用いて、ソーシャルメディア上の偽ニュース、スパム、偽アカウントを検出する研究を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-26T23:55:50Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。