論文の概要: LLM-Based Adversarial Persuasion Attacks on Fact-Checking Systems
- arxiv url: http://arxiv.org/abs/2601.16890v1
- Date: Fri, 23 Jan 2026 16:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.769522
- Title: LLM-Based Adversarial Persuasion Attacks on Fact-Checking Systems
- Title(参考訳): LLMによるFact-Checkingシステムにおける逆解析攻撃
- Authors: João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton,
- Abstract要約: 本稿では,自動事実チェックシステムに対する説得的敵対攻撃の新たなクラスを紹介する。
本研究は,非結合評価戦略を用いたクレーム検証とエビデンス検索の両方に対する説得の効果について検討する。
本分析では, より堅牢なAFCシステムの必要性を浮き彫りにして, 説得手法を敵攻撃の強力なクラスとして認識する。
- 参考スコア(独自算出の注目度): 9.795192821776462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated fact-checking (AFC) systems are susceptible to adversarial attacks, enabling false claims to evade detection. Existing adversarial frameworks typically rely on injecting noise or altering semantics, yet no existing framework exploits the adversarial potential of persuasion techniques, which are widely used in disinformation campaigns to manipulate audiences. In this paper, we introduce a novel class of persuasive adversarial attacks on AFCs by employing a generative LLM to rephrase claims using persuasion techniques. Considering 15 techniques grouped into 6 categories, we study the effects of persuasion on both claim verification and evidence retrieval using a decoupled evaluation strategy. Experiments on the FEVER and FEVEROUS benchmarks show that persuasion attacks can substantially degrade both verification performance and evidence retrieval. Our analysis identifies persuasion techniques as a potent class of adversarial attacks, highlighting the need for more robust AFC systems.
- Abstract(参考訳): AFC (Automated fact-checking) システムは敵攻撃の影響を受けやすいため、誤認を回避できる。
既存の敵対的フレームワークは通常、ノイズの注入や意味論の変更に頼っているが、既存のフレームワークでは、聴衆を操作するための偽情報キャンペーンで広く使われている説得技法の敵対的可能性を利用するものはない。
本稿では, AFC に対する説得的敵対攻撃の新たなクラスについて, 説得技術を用いた主張の言い換えにジェネレーティブ LLM を用いて紹介する。
6つのカテゴリに分類した15の手法を考慮し, 分離評価戦略を用いたクレーム検証とエビデンス検索の効果について検討した。
FEVERとFEVEROUSベンチマークの実験では、説得攻撃は検証性能とエビデンス検索の両方を著しく低下させることが示されている。
本分析では, より堅牢なAFCシステムの必要性を浮き彫りにして, 説得手法を敵攻撃の強力なクラスとして認識する。
関連論文リスト
- Adversarial Attacks Against Automated Fact-Checking: A Survey [36.08022268176274]
本調査は,ファクトチェックシステムを対象とした敵攻撃の詳細な調査である。
敵意識の防御の最近の進歩を考察し,オープンな研究課題を浮き彫りにした。
本研究は, 逆行性操作に耐えられるレジリエントFCフレームワークの緊急ニーズを浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-09-10T10:10:10Z) - Concealment of Intent: A Game-Theoretic Analysis [15.387256204743407]
我々は、意図を隠蔽する敵のプロンプトというスケーラブルな攻撃戦略を提示し、スキルの合成を通じて悪意のある意図を隠蔽する。
本分析では, 平衡点を同定し, 攻撃者に対する構造的優位性を明らかにする。
実験により,複数の実世界のLSMに対する攻撃の有効性を,様々な悪意ある行動にわたって検証した。
論文 参考訳(メタデータ) (2025-05-27T07:59:56Z) - Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models [22.296368955665475]
本稿では,関連するクエリに対する意見に影響を及ぼすために,敵の摂動を利用する2段階の操作攻撃パイプラインを提案する。
実験により、提案した攻撃は特定のトピックに対するモデルの出力の意見を効果的にシフトさせることが示されている。
論文 参考訳(メタデータ) (2025-02-03T14:21:42Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Defense of Adversarial Ranking Attack in Text Retrieval: Benchmark and
Baseline via Detection [12.244543468021938]
本稿では,敵対的文書に対する2種類の検出タスクを提案する。
敵のランク防衛の調査を容易にするために、ベンチマークデータセットが確立されている。
いくつかの検出基準線の性能を総合的に調査する。
論文 参考訳(メタデータ) (2023-07-31T16:31:24Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。