論文の概要: Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
- arxiv url: http://arxiv.org/abs/2508.06059v1
- Date: Fri, 08 Aug 2025 06:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.104494
- Title: Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
- Title(参考訳): Fact2Fiction: エージェント・ファクト・チェックシステムに対する標的の毒殺攻撃
- Authors: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau,
- Abstract要約: 最先端のファクトチェックシステムは、自律エージェントを駆使して、大規模な誤情報と戦う。
この研究は、エージェントファクトチェックシステムをターゲットにした最初の中毒攻撃フレームワークであるFact2Fictionを紹介する。
- 参考スコア(独自算出の注目度): 13.387828586096468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.
- Abstract(参考訳): 最先端のファクトチェックシステムは、自律的なLCMベースのエージェントを使用して、複雑なクレームをより小さなサブクレームに分解し、個々のサブクレームを個別に検証し、部分的な結果を集計して、正当性(評定のための説明的根拠)で評定を生成することで、大規模な誤情報と戦う。
これらのシステムのセキュリティは極めて重要であり、侵入されたファクトチェッカーは容易に過小評価される傾向にあり、誤情報を増幅することができる。
この研究は、エージェントファクトチェックシステムをターゲットにした最初の中毒攻撃フレームワークであるFact2Fictionを紹介する。
Fact2Fictionは、分解戦略を反映し、システム生成の正当性を悪用し、サブステート検証を侵害する悪質な証拠を仕立てる。
広範囲な実験により、Fact2Fictionは様々な毒殺予算における最先端の攻撃よりも8.9\%--21.2\%の攻撃成功率を達成することが示された。
Fact2Fictionは、現在のファクトチェックシステムにおけるセキュリティの弱点を明らかにし、防御対策の必要性を強調している。
関連論文リスト
- Confundo: Learning to Generate Robust Poison for Practical RAG Systems [19.77771071590713]
Confundoは、大きな言語モデルを毒の発生源として微調整し、高い有効性、堅牢性、およびステルス性を達成するための学習・博学のフレームワークである。
Confundoは、データセットとRAG設定をまたいで、幅広い目的に構築されたアタックを一貫して上回っていることを示す。
また,RAGシステムへの不正な組み込みからWebコンテンツをスクレイピングによって保護する防衛的ユースケースも提示する。
論文 参考訳(メタデータ) (2026-02-06T11:19:49Z) - DECEIVE-AFC: Adversarial Claim Attacks against Search-Enabled LLM-based Fact-Checking Systems [38.6944646666426]
本研究では,現実的な入力のみの脅威モデルの下で,検索可能なファクトチェックシステムに対する敵対的クレーム攻撃について検討する。
本稿では,新たなクレームレベルのアタック戦略と,敵クレームのアタック評価原則を統合するエージェントベースのアタックフレームワークであるDECEIVE-AFCを提案する。
我々の攻撃は、検証性能を著しく低下させ、精度を78.7%から53.7%に下げ、既存のクレームベースの攻撃ベースラインを強力なクロスシステム転送性で大幅に上回った。
論文 参考訳(メタデータ) (2026-01-31T03:49:23Z) - ADMIT: Few-shot Knowledge Poisoning Attacks on RAG-based Fact Checking [42.283307608442946]
知識中毒はレトリーバル増強世代(RAG)システムにとって重大な脅威となる。
textbfADMIT (textbfADversarial textbfMulti-textbfInjection textbfTechnique) は、事実チェックの決定を覆す意味論的に整合した中毒攻撃である。
論文 参考訳(メタデータ) (2025-10-11T14:50:40Z) - Adversarial Attacks Against Automated Fact-Checking: A Survey [36.08022268176274]
本調査は,ファクトチェックシステムを対象とした敵攻撃の詳細な調査である。
敵意識の防御の最近の進歩を考察し,オープンな研究課題を浮き彫りにした。
本研究は, 逆行性操作に耐えられるレジリエントFCフレームワークの緊急ニーズを浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-09-10T10:10:10Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [19.179465547413848]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレートラーニング(FL)システムは、モデル中毒やバックドア攻撃などの敵攻撃に対して脆弱である。
本研究では,実用FLシナリオに特化して設計された新しい異常検出手法を提案する。
本手法では,2段階の条件付き検出機構を用いる。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Synthetic Disinformation Attacks on Automated Fact Verification Systems [53.011635547834025]
本研究では,2つのシミュレーション環境において,自動ファクトチェッカーの合成正反対証拠に対する感度について検討する。
これらのシステムでは,これらの攻撃に対して大幅な性能低下がみられた。
偽情報の発生源としての現代のNLGシステムの脅威の増大について論じる。
論文 参考訳(メタデータ) (2022-02-18T19:01:01Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。