論文の概要: Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
- arxiv url: http://arxiv.org/abs/2508.06059v1
- Date: Fri, 08 Aug 2025 06:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.104494
- Title: Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
- Title(参考訳): Fact2Fiction: エージェント・ファクト・チェックシステムに対する標的の毒殺攻撃
- Authors: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau,
- Abstract要約: 最先端のファクトチェックシステムは、自律エージェントを駆使して、大規模な誤情報と戦う。
この研究は、エージェントファクトチェックシステムをターゲットにした最初の中毒攻撃フレームワークであるFact2Fictionを紹介する。
- 参考スコア(独自算出の注目度): 13.387828586096468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.
- Abstract(参考訳): 最先端のファクトチェックシステムは、自律的なLCMベースのエージェントを使用して、複雑なクレームをより小さなサブクレームに分解し、個々のサブクレームを個別に検証し、部分的な結果を集計して、正当性(評定のための説明的根拠)で評定を生成することで、大規模な誤情報と戦う。
これらのシステムのセキュリティは極めて重要であり、侵入されたファクトチェッカーは容易に過小評価される傾向にあり、誤情報を増幅することができる。
この研究は、エージェントファクトチェックシステムをターゲットにした最初の中毒攻撃フレームワークであるFact2Fictionを紹介する。
Fact2Fictionは、分解戦略を反映し、システム生成の正当性を悪用し、サブステート検証を侵害する悪質な証拠を仕立てる。
広範囲な実験により、Fact2Fictionは様々な毒殺予算における最先端の攻撃よりも8.9\%--21.2\%の攻撃成功率を達成することが示された。
Fact2Fictionは、現在のファクトチェックシステムにおけるセキュリティの弱点を明らかにし、防御対策の必要性を強調している。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [19.179465547413848]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレートラーニング(FL)システムは、モデル中毒やバックドア攻撃などの敵攻撃に対して脆弱である。
本研究では,実用FLシナリオに特化して設計された新しい異常検出手法を提案する。
本手法では,2段階の条件付き検出機構を用いる。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Synthetic Disinformation Attacks on Automated Fact Verification Systems [53.011635547834025]
本研究では,2つのシミュレーション環境において,自動ファクトチェッカーの合成正反対証拠に対する感度について検討する。
これらのシステムでは,これらの攻撃に対して大幅な性能低下がみられた。
偽情報の発生源としての現代のNLGシステムの脅威の増大について論じる。
論文 参考訳(メタデータ) (2022-02-18T19:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。