論文の概要: Robust Fake News Detection using Large Language Models under Adversarial Sentiment Attacks
- arxiv url: http://arxiv.org/abs/2601.15277v1
- Date: Wed, 21 Jan 2026 18:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.504511
- Title: Robust Fake News Detection using Large Language Models under Adversarial Sentiment Attacks
- Title(参考訳): 逆知覚攻撃による大規模言語モデルを用いたロバストフェイクニュース検出
- Authors: Sahar Tahmasebi, Eric Müller-Budack, Ralph Ewerth,
- Abstract要約: AdSentは、原文記事と感傷記事の両方で一貫した予測を保証するために設計された感情汚染検出フレームワークである。
感情の変化が偽ニュース検出モデルの性能に大きく影響を与えることを示す。
我々は,このような摂動に対する堅牢性を高める,感情非依存の新たなトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 7.075749925221166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation and fake news have become a pressing societal challenge, driving the need for reliable automated detection methods. Prior research has highlighted sentiment as an important signal in fake news detection, either by analyzing which sentiments are associated with fake news or by using sentiment and emotion features for classification. However, this poses a vulnerability since adversaries can manipulate sentiment to evade detectors especially with the advent of large language models (LLMs). A few studies have explored adversarial samples generated by LLMs, but they mainly focus on stylistic features such as writing style of news publishers. Thus, the crucial vulnerability of sentiment manipulation remains largely unexplored. In this paper, we investigate the robustness of state-of-the-art fake news detectors under sentiment manipulation. We introduce AdSent, a sentiment-robust detection framework designed to ensure consistent veracity predictions across both original and sentiment-altered news articles. Specifically, we (1) propose controlled sentiment-based adversarial attacks using LLMs, (2) analyze the impact of sentiment shifts on detection performance. We show that changing the sentiment heavily impacts the performance of fake news detection models, indicating biases towards neutral articles being real, while non-neutral articles are often classified as fake content. (3) We introduce a novel sentiment-agnostic training strategy that enhances robustness against such perturbations. Extensive experiments on three benchmark datasets demonstrate that AdSent significantly outperforms competitive baselines in both accuracy and robustness, while also generalizing effectively to unseen datasets and adversarial scenarios.
- Abstract(参考訳): 誤報や偽ニュースは社会的課題となり、信頼性の高い自動検出方法の必要性が高まっている。
これまでの研究では、どの感情が偽ニュースに関連付けられているかを分析するか、あるいは分類に感情と感情の特徴を用いるかによって、偽ニュースの検出において重要なシグナルとして感情を強調してきた。
しかし、特に大きな言語モデル(LLM)の出現によって、敵が検知器を避けるために感情を操作できるため、これは脆弱性となる。
LLMが生み出した敵対的なサンプルについて、いくつかの研究があるが、主にニュース出版社のスタイルを書くことのようなスタイル的な特徴に焦点を当てている。
したがって、感情操作の重大な脆弱性はほとんど未解明のままである。
本稿では,感情操作下での最先端のフェイクニュース検出器の堅牢性について検討する。
本稿では,原記事と感傷記事の両面において,一貫した妥当性予測を保証するために設計された感情汚染検出フレームワークであるAdSentを紹介する。
具体的には,(1)LLMを用いた制御された感情ベースの敵攻撃を提案し,(2)検出性能に対する感情変化の影響を分析した。
センセーションの変化は偽ニュース検出モデルの性能に大きく影響し、中性記事が本物であることへの偏見を示す一方、非中性記事は偽コンテンツとして分類されることがしばしばある。
(3)このような摂動に対する堅牢性を高める新たな感情非依存のトレーニング戦略を導入する。
3つのベンチマークデータセットに対する大規模な実験により、AdSentは正確性と堅牢性の両方において競争ベースラインを大幅に上回っていると同時に、目に見えないデータセットや敵シナリオに効果的に一般化している。
関連論文リスト
- FactGuard: Event-Centric and Commonsense-Guided Fake News Detection [9.397476786006111]
大型言語モデル (LLMs) は偽ニュース検出のための未使用の金鉱である。
我々は,イベント中心のコンテンツ抽出にLLMを活用する,FactGuardと呼ばれる新しいフェイクニュース検出フレームワークを提案する。
私たちのアプローチは、堅牢性と正確性の両方において、既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-11-13T13:11:42Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Fake News Detection and Manipulation Reasoning via Large Vision-Language Models [38.457805116130004]
本稿では,Human-centric and Fact-related Fake News(HFFN)と呼ばれる偽ニュースの検出と操作の推論のためのベンチマークを紹介する。
このベンチマークでは、詳細なマニュアルアノテーションによって、人間の中心性と、高い事実的関連性を強調している。
M-DRUM(Multi-modal News Detection and Reasoning langUage Model)が提示される。
論文 参考訳(メタデータ) (2024-07-02T08:16:43Z) - Adversarial Style Augmentation via Large Language Model for Robust Fake News Detection [48.545082903061136]
本研究は, 偽ニュース検知器の訓練を目的とした, 対向型拡張AdStyleを提案する。
主要なメカニズムは、LLMを戦略的に利用して、多様で一貫性のあるスタイル変換攻撃プロンプトを自動生成することである。
実験結果から,我々の拡張戦略は,偽ニュースベンチマークデータセットで評価した場合のロバストネスと検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T07:00:41Z) - Adapting Fake News Detection to the Era of Large Language Models [48.5847914481222]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - An Adversarial Benchmark for Fake News Detection Models [0.065268245109828]
我々は「理解」の3つの側面を狙う敵攻撃を定式化する
我々は、LIAR arXiv:arch-ive/1705648とKaggle Fake-Newsデータセットで微調整されたBERT分類器を用いてベンチマークをテストする。
論文 参考訳(メタデータ) (2022-01-03T23:51:55Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。