論文の概要: Confundo: Learning to Generate Robust Poison for Practical RAG Systems
- arxiv url: http://arxiv.org/abs/2602.06616v1
- Date: Fri, 06 Feb 2026 11:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.37503
- Title: Confundo: Learning to Generate Robust Poison for Practical RAG Systems
- Title(参考訳): Confundo: 実践的なRAGシステムのためのロバストポゾン生成の学習
- Authors: Haoyang Hu, Zhejun Jiang, Yueming Lyu, Junyuan Zhang, Yi Liu, Ka-Ho Chow,
- Abstract要約: Confundoは、大きな言語モデルを毒の発生源として微調整し、高い有効性、堅牢性、およびステルス性を達成するための学習・博学のフレームワークである。
Confundoは、データセットとRAG設定をまたいで、幅広い目的に構築されたアタックを一貫して上回っていることを示す。
また,RAGシステムへの不正な組み込みからWebコンテンツをスクレイピングによって保護する防衛的ユースケースも提示する。
- 参考スコア(独自算出の注目度): 19.77771071590713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is increasingly deployed in real-world applications, where its reference-grounded design makes outputs appear trustworthy. This trust has spurred research on poisoning attacks that craft malicious content, inject it into knowledge sources, and manipulate RAG responses. However, when evaluated in practical RAG systems, existing attacks suffer from severely degraded effectiveness. This gap stems from two overlooked realities: (i) content is often processed before use, which can fragment the poison and weaken its effect, and (ii) users often do not issue the exact queries anticipated during attack design. These factors can lead practitioners to underestimate risks and develop a false sense of security. To better characterize the threat to practical systems, we present Confundo, a learning-to-poison framework that fine-tunes a large language model as a poison generator to achieve high effectiveness, robustness, and stealthiness. Confundo provides a unified framework supporting multiple attack objectives, demonstrated by manipulating factual correctness, inducing biased opinions, and triggering hallucinations. By addressing these overlooked challenges, Confundo consistently outperforms a wide range of purpose-built attacks across datasets and RAG configurations by large margins, even in the presence of defenses. Beyond exposing vulnerabilities, we also present a defensive use case that protects web content from unauthorized incorporation into RAG systems via scraping, with no impact on user experience.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、実世界のアプリケーションにますますデプロイされ、参照基底設計によって出力が信頼できるように見える。
この信頼は、悪意のあるコンテンツを作り、それを知識ソースに注入し、RAG応答を操作する毒攻撃の研究を刺激している。
しかしながら、実用RAGシステムでの評価では、既存の攻撃は極めて劣化した効果に悩まされる。
このギャップは2つの見過ごされた現実に起因している。
一 使用前に処理されることが多く、毒を分解してその効果を弱めることができる。
(ii)攻撃設計時に予測される正確なクエリを発行しないことが多い。
これらの要因は、実践者がリスクを過小評価し、誤ったセキュリティ感覚を発達させる可能性がある。
実用システムに対する脅威をより正確に評価するために,大規模言語モデルを毒素発生源として微調整し,高い有効性,堅牢性,ステルス性を実現するための学習・分析フレームワークであるConfundoを提案する。
Confundoは、複数の攻撃目標をサポートする統一されたフレームワークを提供する。
これらの見過ごされた課題に対処することによって、Confundoは、防衛の存在下においても、データセットとRAG構成をまたいだ幅広い目的構築された攻撃を、大きなマージンで一貫して上回ります。
脆弱性を露呈するだけでなく、ユーザエクスペリエンスに影響を与えることなく、RAGシステムへのWebコンテンツの不正な取り込みから保護する防御的ユースケースも提示します。
関連論文リスト
- Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [28.06028279729382]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - Practical Poisoning Attacks against Retrieval-Augmented Generation [9.320227105592917]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示しているが、幻覚や時代遅れの知識といった課題に直面している。
Retrieval-Augmented Generation (RAG)は、これらの問題を緩和するための最先端のアプローチとして登場した。
我々は、攻撃者が1つの有毒テキストだけを注入するRAGシステムに対する実用的な中毒攻撃であるCorruptRAGを提案する。
論文 参考訳(メタデータ) (2025-04-04T21:49:42Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。