論文の概要: Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control
- arxiv url: http://arxiv.org/abs/2605.26754v1
- Date: Tue, 26 May 2026 09:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.787575
- Title: Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control
- Title(参考訳): Cordon-MAS:情報フロー制御による知識中毒に対するRAGの防御
- Authors: Zhe Yu, Wenpeng Xing, Gaolei Li, Shuguang Xiong, Hongzhi Wang, Xuyang Teng, Meng Han,
- Abstract要約: 既存の防衛は、毒物検出が害を防いでいると仮定している。
モデルは監視と制御のギャップを示す。
コードン原理を導入します -- 最終的な合成が可能なエージェントは、信頼できない自然言語の証拠にアクセスできません。
- 参考スコア(独自算出の注目度): 22.814552066611597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) increasingly underpins high-stakes applications, yet remains vulnerable to Confundo-style poisoning where adversarially optimized documents manipulate generated outputs. Existing defenses assume that detecting poisoned evidence prevents harm. We show this assumption is incorrect: models exhibit a monitoring-control gap -- they can detect contradictions in retrieved evidence yet still act on poisoned claims. We introduce the Cordon Principle -- no agent capable of final synthesis may access untrusted natural-language evidence -- and realize it through CORDON-MAS, a compartmentalized framework that enforces this principle architecturally by separating evidence extraction, cross-source audit, and answer synthesis into agents with asymmetric memory privileges. Across five BEIR datasets, CORDON-MAS reduces attack success rate by 92.4\% relative to undefended RAG. This reframes RAG poisoning from a detection problem to an information-flow control problem.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、ハイテイクなアプリケーションを支える傾向にあるが、逆最適化されたドキュメントが生成された出力を操作できるConfundoスタイルの毒に弱いままである。
既存の防衛は、毒物検出が害を防いでいると仮定している。
我々は、この仮定が正しいことを示している:モデルは、監視制御のギャップを示す -- 回収された証拠の矛盾を検出できるが、まだ毒殺されたクレームに作用する。我々は、コルドン原理(Cordon Principle)を紹介します -- 最終的な合成能力を持つエージェントは、信頼できない自然言語のエビデンスにアクセスできない。そして、証拠の抽出、クロスソース監査、回答合成を非対称なメモリ特権を持つエージェントに分離することで、この原則をアーキテクチャ的に強制する複合化フレームワークであるCORDON-MASを通じて実現します。
5つのBEIRデータセット全体で、CORDON-MASは未定義のRAGと比較して攻撃成功率を92.4\%削減する。
これにより、RAG中毒を検出問題から情報フロー制御問題にリフレームする。
関連論文リスト
- Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs [20.59321114618083]
単一ターン診断はRAGの安全性を体系的に過大評価し、矛盾は安全な解決法とは無関係であり、普遍的な即時修正は存在しないことを示した。
モデルが認識するものと何をするかのギャップは、検索強化されたシステムが高レベルな設定で信頼される前に測定され、クローズされなければならない。
論文 参考訳(メタデータ) (2026-05-26T15:18:43Z) - Gray-Box Poisoning of Continuous Malware Ingestion Pipelines [0.0]
本研究では,現代のマルウェア検出パイプラインを対象とした現実的なグレーボックス中毒モデルについて検討する。
関数保存操作により,問題空間の逆バイナリを生成する。
光GBMマルウェア検出モデルに対するディフェンダーのトレーニングセットに摂取した場合のこれらの有毒試料の影響を評価した。
論文 参考訳(メタデータ) (2026-05-06T09:49:23Z) - AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning [115.3243260783674]
Retrieval-augmented Generation (RAG) は、外部文書を取得することにより、大きな言語モデル(LLM)推論を強化する。
攻撃者が悪意のあるコンテンツを検索コーパスに注入するRAGにおける知識ベース中毒攻撃について検討した。
AdversarialCoTは、コーパス内の1つのドキュメントだけを毒化するクエリ固有の攻撃である。
論文 参考訳(メタデータ) (2026-04-14T02:10:23Z) - Confundo: Learning to Generate Robust Poison for Practical RAG Systems [19.77771071590713]
Confundoは、大きな言語モデルを毒の発生源として微調整し、高い有効性、堅牢性、およびステルス性を達成するための学習・博学のフレームワークである。
Confundoは、データセットとRAG設定をまたいで、幅広い目的に構築されたアタックを一貫して上回っていることを示す。
また,RAGシステムへの不正な組み込みからWebコンテンツをスクレイピングによって保護する防衛的ユースケースも提示する。
論文 参考訳(メタデータ) (2026-02-06T11:19:49Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - PoisonCatcher: Revealing and Identifying LDP Poisoning Attacks in IIoT [13.68394346583211]
ローカル微分プライバシー(LDP)は、軽量で分散化されスケーラブルであるため、産業用IoT(Industrial Internet of Things)で広く採用されている。
本研究は,資源豊富なアグリゲータにおけるIIoTに対するLDP中毒防御法を提案する。
論文 参考訳(メタデータ) (2024-12-20T09:26:50Z) - Towards A Proactive ML Approach for Detecting Backdoor Poison Samples [38.21287048132065]
広告主は、トレーニングデータセットにバックドア毒サンプルを導入することで、ディープラーニングモデルにバックドアを埋め込むことができる。
本研究は,バックドア攻撃の脅威を軽減するために,このような毒のサンプルを検出する方法について検討する。
論文 参考訳(メタデータ) (2022-05-26T20:44:15Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。