論文の概要: DECEIVE-AFC: Adversarial Claim Attacks against Search-Enabled LLM-based Fact-Checking Systems
- arxiv url: http://arxiv.org/abs/2602.02569v1
- Date: Sat, 31 Jan 2026 03:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.94423
- Title: DECEIVE-AFC: Adversarial Claim Attacks against Search-Enabled LLM-based Fact-Checking Systems
- Title(参考訳): DECEIVE-AFC: 検索可能なLCMベースのFact-Checkingシステムに対する敵対的クレーム攻撃
- Authors: Haoran Ou, Kangjie Chen, Gelei Deng, Hangcheng Liu, Jie Zhang, Tianwei Zhang, Kwok-Yan Lam,
- Abstract要約: 本研究では,現実的な入力のみの脅威モデルの下で,検索可能なファクトチェックシステムに対する敵対的クレーム攻撃について検討する。
本稿では,新たなクレームレベルのアタック戦略と,敵クレームのアタック評価原則を統合するエージェントベースのアタックフレームワークであるDECEIVE-AFCを提案する。
我々の攻撃は、検証性能を著しく低下させ、精度を78.7%から53.7%に下げ、既存のクレームベースの攻撃ベースラインを強力なクロスシステム転送性で大幅に上回った。
- 参考スコア(独自算出の注目度): 38.6944646666426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checking systems with search-enabled large language models (LLMs) have shown strong potential for verifying claims by dynamically retrieving external evidence. However, the robustness of such systems against adversarial attack remains insufficiently understood. In this work, we study adversarial claim attacks against search-enabled LLM-based fact-checking systems under a realistic input-only threat model. We propose DECEIVE-AFC, an agent-based adversarial attack framework that integrates novel claim-level attack strategies and adversarial claim validity evaluation principles. DECEIVE-AFC systematically explores adversarial attack trajectories that disrupt search behavior, evidence retrieval, and LLM-based reasoning without relying on access to evidence sources or model internals. Extensive evaluations on benchmark datasets and real-world systems demonstrate that our attacks substantially degrade verification performance, reducing accuracy from 78.7% to 53.7%, and significantly outperform existing claim-based attack baselines with strong cross-system transferability.
- Abstract(参考訳): 検索可能な大規模言語モデル (LLM) を用いたファクトチェックシステムは, 外部証拠を動的に回収することによって, クレームの検証に強い可能性を示唆している。
しかし、このようなシステムによる敵攻撃に対する堅牢性は、いまだに十分に理解されていない。
本研究では,現実的な入力のみの脅威モデルの下で,LLMに基づくファクトチェックシステムに対する敵対的クレーム攻撃について検討する。
本稿では,新たなクレームレベルのアタック戦略と,敵クレームのアタック評価原則を統合するエージェントベースのアタックフレームワークであるDECEIVE-AFCを提案する。
DECEIVE-AFCは、エビデンスソースやモデル内部へのアクセスに頼ることなく、探索行動、エビデンス検索、LCMに基づく推論を妨害する敵の攻撃軌跡を体系的に探索する。
ベンチマークデータセットと実世界のシステムに対する大規模な評価は、我々の攻撃が検証性能を著しく低下させ、精度を78.7%から53.7%に下げ、既存のクレームベースの攻撃ベースラインを強力なクロスシステム転送性で大幅に上回ったことを示している。
関連論文リスト
- AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - RAG-targeted Adversarial Attack on LLM-based Threat Detection and Mitigation Framework [0.19116784879310025]
IoT(Internet of Things)の急速な拡張は、業界全体のコミュニケーションと運用のプラクティスを変革する一方で、攻撃面を広げ、セキュリティ侵害に対する感受性を高めている。
人工知能はIoTネットワークを保護する上で重要なソリューションとなり、Large Language Models(LLM)は自動攻撃行動分析と緩和提案を可能にしている。
LLMベースのIoT攻撃分析と緩和フレームワークを攻撃して、その敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2025-11-09T03:50:17Z) - Adversarial Attacks Against Automated Fact-Checking: A Survey [36.08022268176274]
本調査は,ファクトチェックシステムを対象とした敵攻撃の詳細な調査である。
敵意識の防御の最近の進歩を考察し,オープンな研究課題を浮き彫りにした。
本研究は, 逆行性操作に耐えられるレジリエントFCフレームワークの緊急ニーズを浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-09-10T10:10:10Z) - Counterfactual Evaluation for Blind Attack Detection in LLM-based Evaluation Systems [24.312079827029326]
我々は、ブラインド・アタックと呼ばれる脅威のクラスを形式化し、候補者の答えは、評価者を欺く真の答えとは無関係に作成される。
このような攻撃に対抗するため、我々は標準評価(SE)と対実評価(CFE)を併用したフレームワークを提案する。
システムが標準条件と反事実条件の両方で回答を検証した場合、攻撃が検出される。
論文 参考訳(メタデータ) (2025-07-31T11:29:42Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Chain-of-Thought Poisoning Attacks against R1-based Retrieval-Augmented Generation Systems [39.05753852489526]
既存の敵攻撃法は通常、知識ベース中毒を利用してRAGシステムの脆弱性を調査する。
本稿では、R1ベースのRAGシステムからの推論プロセステンプレートを用いて、誤った知識を敵の文書にラップし、それらを知識ベースに注入してRAGシステムを攻撃する。
提案手法の鍵となる考え方は,モデルのトレーニング信号に一致したチェーン・オブ・シンクレット・パターンをシミュレートすることで,正史的推論プロセスとしてモデルによって誤解される可能性がある,というものである。
論文 参考訳(メタデータ) (2025-05-22T08:22:46Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。