論文の概要: Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks
- arxiv url: http://arxiv.org/abs/2310.10830v2
- Date: Tue, 20 Aug 2024 17:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:51:22.410906
- Title: Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks
- Title(参考訳): Fake News in Sheep's Clothing: Robust Fake News Detection against LLM-Empowered Style Attacks
- Authors: Jiaying Wu, Jiafeng Guo, Bryan Hooi,
- Abstract要約: SheepDogは、ニュースの正確性を決定する際に、スタイルよりもコンテンツを優先する、スタイルに反する偽ニュース検出ツールだ。
SheepDog はこのレジリエンスを,(1) LLM を利用したニュースリフレーミング,(2) 異なるスタイルに対応する記事のカスタマイズによる学習プロセスへのスタイル多様性の注入,(2) スタイルの異なるリフレーミング間で一貫した妥当性予測を保証するスタイル非依存のトレーニング,(3) LLM からコンテンツ中心のガイドラインを抽出して偽ニュースを抽出するコンテンツ中心の属性を通じて達成する。
- 参考スコア(独自算出の注目度): 60.14025705964573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is commonly perceived that fake news and real news exhibit distinct writing styles, such as the use of sensationalist versus objective language. However, we emphasize that style-related features can also be exploited for style-based attacks. Notably, the advent of powerful Large Language Models (LLMs) has empowered malicious actors to mimic the style of trustworthy news sources, doing so swiftly, cost-effectively, and at scale. Our analysis reveals that LLM-camouflaged fake news content significantly undermines the effectiveness of state-of-the-art text-based detectors (up to 38% decrease in F1 Score), implying a severe vulnerability to stylistic variations. To address this, we introduce SheepDog, a style-robust fake news detector that prioritizes content over style in determining news veracity. SheepDog achieves this resilience through (1) LLM-empowered news reframings that inject style diversity into the training process by customizing articles to match different styles; (2) a style-agnostic training scheme that ensures consistent veracity predictions across style-diverse reframings; and (3) content-focused veracity attributions that distill content-centric guidelines from LLMs for debunking fake news, offering supplementary cues and potential intepretability that assist veracity prediction. Extensive experiments on three real-world benchmarks demonstrate SheepDog's style robustness and adaptability to various backbones.
- Abstract(参考訳): 偽ニュースや実ニュースは、センセーショナルな言語と客観的な言語の使用など、異なる書き方を示していると一般的に認識されている。
しかし、スタイルベースの攻撃にも、スタイル関連の機能が活用できることを強調した。
特に、強力な大規模言語モデル(LLM)の出現により、悪意あるアクターは信頼できるニュースソースのスタイルを模倣し、迅速に、費用対効果、大規模に実行できるようになった。
解析の結果,LLMをカモフラージュした偽ニュースコンテンツは,最先端のテキストベース検出器(F1スコアの最大38%低下)の有効性を著しく損なうことが判明した。
この問題に対処するために,我々は,ニュースの正確性を決定する上で,スタイルよりもコンテンツの方が優先されるスタイルの偽ニュース検知器であるSheepDogを紹介した。
SheepDog はこのレジリエンスを,(1) LLM を利用したニューズリフレーミング,(2) 異なるスタイルに合わせて記事をカスタマイズしてスタイルの多様性を注入する,(2) スタイルの異なるリフレーミング間で一貫した妥当性予測を保証する,スタイルに依存しないトレーニングスキーム,(3) 偽ニュースをデバッキングするために LLM からコンテンツ中心のガイドラインを抽出するコンテンツ中心の正確性アトリビュート, 補助的手がかりの提供, 潜在的な不定性予測を支援する, などを通じて実現している。
3つの実世界のベンチマークに関する大規模な実験は、SheepDogのスタイルの堅牢性と様々なバックボーンへの適応性を示している。
関連論文リスト
- Seeing Through AI's Lens: Enhancing Human Skepticism Towards LLM-Generated Fake News [0.38233569758620056]
本稿は,人間とLLMで作成する物品を個人が識別する簡単なマーカーを解明することを目的としている。
次に、情報理論とエントロピー原理に基づいて、エントロピーシフトオーサリングシグナチャ(ESAS)と呼ばれるメトリクスを考案する。
提案されたESASは、記事の著者の識別に関する関連性に基づいて、POSタグのような用語やエンティティをニュース記事にランク付けする。
論文 参考訳(メタデータ) (2024-06-20T06:02:04Z) - Adversarial Style Augmentation via Large Language Model for Robust Fake News Detection [18.998947450697337]
本研究は, 偽ニュース検知器の訓練を行うために, 対向型拡張AdStyleを提案する。
我々のモデルの主要なメカニズムは、LLMを慎重に使用して、多種多様なスタイル変換攻撃プロンプトを自動生成することである。
実験により、我々の拡張戦略は、フェイクニュースベンチマークデータセットでテストした場合の堅牢性と検出性能を改善することが示された。
論文 参考訳(メタデータ) (2024-06-17T07:00:41Z) - Exploring the Deceptive Power of LLM-Generated Fake News: A Study of Real-World Detection Challenges [21.425647152424585]
条件付き変分オートエンコーダライズプロンプト(VLPrompt)と呼ばれる強力なフェイクニュース攻撃手法を提案する。
現行のメソッドとは異なり、VLPromptはコンテキストコヒーレンスを維持しながら追加のデータ収集を不要にする。
さまざまな検出方法や新しい人間の研究指標を含む実験を行い,その性能をデータセット上で評価した。
論文 参考訳(メタデータ) (2024-03-27T04:39:18Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Fake News Detectors are Biased against Texts Generated by Large Language
Models [39.36284616311687]
フェイクニュースの拡散は、信頼を弱め、社会への脅威を訴える重要な課題として浮上している。
本稿では,人間の書き起こしとLLM生成の両方の誤情報を含むシナリオにおいて,偽ニュース検知器を評価するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-09-15T18:04:40Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。