論文の概要: Fake News in Sheep's Clothing: Robust Fake News Detection Against
LLM-Empowered Style Attacks
- arxiv url: http://arxiv.org/abs/2310.10830v1
- Date: Mon, 16 Oct 2023 21:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:58:00.034405
- Title: Fake News in Sheep's Clothing: Robust Fake News Detection Against
LLM-Empowered Style Attacks
- Title(参考訳): 羊の服のフェイクニュース: llm-empoweredスタイル攻撃に対するロバストなフェイクニュース検出
- Authors: Jiaying Wu, Bryan Hooi
- Abstract要約: SheepDogは、ニュース作成スタイルに頑健な、スタイルに依存しない偽ニュース検出ツールである。
SheepDog はこの適応性を LLM を利用したニュースリフレーミングによって実現している。
SheepDogは、競争ベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 44.17045754539121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is commonly perceived that online fake news and reliable news exhibit
stark differences in writing styles, such as the use of sensationalist versus
objective language. However, we emphasize that style-related features can also
be exploited for style-based attacks. Notably, the rise of powerful Large
Language Models (LLMs) has enabled malicious users to mimic the style of
trustworthy news outlets at minimal cost. Our analysis reveals that
LLM-camouflaged fake news content leads to substantial performance degradation
of state-of-the-art text-based detectors (up to 38% decrease in F1 Score),
posing a significant challenge for automated detection in online ecosystems. To
address this, we introduce SheepDog, a style-agnostic fake news detector robust
to news writing styles. SheepDog achieves this adaptability through
LLM-empowered news reframing, which customizes each article to match different
writing styles using style-oriented reframing prompts. By employing
style-agnostic training, SheepDog enhances its resilience to stylistic
variations by maximizing prediction consistency across these diverse
reframings. Furthermore, SheepDog extracts content-focused veracity
attributions from LLMs, where the news content is evaluated against a set of
fact-checking rationales. These attributions provide supplementary information
and potential interpretability that assist veracity prediction. On three
benchmark datasets, empirical results show that SheepDog consistently yields
significant improvements over competitive baselines and enhances robustness
against LLM-empowered style attacks.
- Abstract(参考訳): オンライン偽ニュースや信頼できるニュースは、センセーショナリズムと客観的言語の使用など、文章のスタイルに大きく違いがあることが一般的である。
しかし、スタイル関連の機能はスタイルベースの攻撃にも利用できることを強調する。
特に、強力な大規模言語モデル(LLM)の台頭により、悪意のあるユーザーが最小限のコストで信頼できるニュースメディアのスタイルを模倣できるようになった。
分析の結果,LLMをカモフラージュした偽ニュースコンテンツは,最先端のテキストベース検出器の性能低下(F1 Scoreの最大38%低下)を招き,オンラインエコシステムにおける自動検出の課題となった。
これに対処するため、我々はニュースライティングスタイルに頑健なスタイル非依存のフェイクニュース検出器であるhrowdogを紹介する。
SheepDogはこの適応性をLLMを利用したニュースリフレーミングを通じて実現し、スタイル指向のリフレーミングプロンプトを使用して各記事が異なる書き込みスタイルにマッチするようにカスタマイズする。
スタイルに依存しないトレーニングを採用することで、SheepDogは、これらの多様なリフレーミングの予測一貫性を最大化することによって、そのレジリエンスを、スタイル的なバリエーションに拡張する。
さらに、ニュースコンテンツがファクトチェックの根拠に対して評価されるllmsから、コンテンツ中心の検証性属性を抽出する。
これらの属性は、妥当性予測を支援する補助情報と潜在的な解釈可能性を提供する。
3つのベンチマークデータセットでは、SheepDogは競争ベースラインよりも大幅に改善され、LLMによるスタイル攻撃に対する堅牢性を高めている。
関連論文リスト
- Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Fake News Detectors are Biased against Texts Generated by Large Language
Models [39.36284616311687]
フェイクニュースの拡散は、信頼を弱め、社会への脅威を訴える重要な課題として浮上している。
本稿では,人間の書き起こしとLLM生成の両方の誤情報を含むシナリオにおいて,偽ニュース検知器を評価するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-09-15T18:04:40Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A Multi-Policy Framework for Deep Learning-Based Fake News Detection [0.31498833540989407]
フェイクニュース検出を自動化するフレームワークであるMPSC(Multi-Policy Statement Checker)を導入する。
MPSCは、深層学習技術を用いて、文自体とその関連するニュース記事を分析し、それが信頼できるか疑わしいかを予測する。
論文 参考訳(メタデータ) (2022-06-01T21:25:21Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Lumen: A Machine Learning Framework to Expose Influence Cues in Text [1.1316285549716723]
フィッシングと偽情報(英: Phishing and disinformation)は、攻撃者がテキストにインフルエンス・キューを適用し、ユーザーにとってより魅力的になるような、一般的なソーシャルエンジニアリング攻撃である。
i) 説得, (ii) フレーミング, (iii) 感情, (iv) 客観性と主観性, (v) 罪悪感, (vi) 強調の使用。
論文 参考訳(メタデータ) (2021-07-12T15:53:13Z) - Adversarial Stylometry in the Wild: Transferable Lexical Substitution
Attacks on Author Profiling [13.722693312120462]
敵対的スタイメトグラフィーは、著者のテキストを書き換えることでそのようなモデルを攻撃しようとする。
本研究は、これらの敵対的攻撃を野生に展開するためのいくつかのコンポーネントを提案する。
論文 参考訳(メタデータ) (2021-01-27T10:42:44Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。