論文の概要: Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.13772v1
- Date: Wed, 17 Sep 2025 07:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.763352
- Title: Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation
- Title(参考訳): 誰が嘘をついたのか : 検索型世代における毒殺知識に対する責任の帰属
- Authors: Baolei Zhang, Haoran Xin, Yuxi Chen, Zhuqing Liu, Biao Yi, Tong Li, Lihai Nie, Zheli Liu, Minghong Fang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、外部知識を大規模言語モデルに統合し、応答品質を向上させる。
近年の研究では、RAGシステムは、悪意のあるテキストを知識データベースに挿入し、モデル出力に影響を与える有害な攻撃に対して非常に脆弱であることが示されている。
本稿では,知識データベースのどのテキストが誤読や誤用の原因であるかを識別するブラックボックス責任属性フレームワークであるRAGOriginについて述べる。
- 参考スコア(独自算出の注目度): 18.511277791848638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) integrates external knowledge into large language models to improve response quality. However, recent work has shown that RAG systems are highly vulnerable to poisoning attacks, where malicious texts are inserted into the knowledge database to influence model outputs. While several defenses have been proposed, they are often circumvented by more adaptive or sophisticated attacks. This paper presents RAGOrigin, a black-box responsibility attribution framework designed to identify which texts in the knowledge database are responsible for misleading or incorrect generations. Our method constructs a focused attribution scope tailored to each misgeneration event and assigns a responsibility score to each candidate text by evaluating its retrieval ranking, semantic relevance, and influence on the generated response. The system then isolates poisoned texts using an unsupervised clustering method. We evaluate RAGOrigin across seven datasets and fifteen poisoning attacks, including newly developed adaptive poisoning strategies and multi-attacker scenarios. Our approach outperforms existing baselines in identifying poisoned content and remains robust under dynamic and noisy conditions. These results suggest that RAGOrigin provides a practical and effective solution for tracing the origins of corrupted knowledge in RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部知識を大規模言語モデルに統合し、応答品質を向上させる。
しかし、最近の研究により、RAGシステムは、悪意のあるテキストを知識データベースに挿入し、モデル出力に影響を与える有害な攻撃に対して非常に脆弱であることが示されている。
いくつかの防衛策が提案されているが、より適応的または洗練された攻撃によって回避されることが多い。
本稿では,知識データベースのどのテキストが誤解を招くのかを識別するブラックボックスの責任帰属フレームワークであるRAGOriginについて述べる。
提案手法は,各誤生成イベントに適した帰属範囲を構築し,その検索ランキング,意味的関連性,および生成した応答への影響を評価して,各候補テキストに責任スコアを割り当てる。
システムは、教師なしクラスタリング手法を用いて、毒テキストを分離する。
我々はRAGOriginを7つのデータセットにまたがって評価し、新たに開発された適応毒殺戦略やマルチアタッカーシナリオを含む15の毒殺攻撃を行った。
本手法は, 毒性成分の同定において既存のベースラインよりも優れ, 動的, 騒音条件下では頑健である。
これらの結果から,RAGOriginはRAGシステムにおける腐敗した知識の起源を追跡できる実用的で効果的な解法であることが示唆された。
関連論文リスト
- Defending Against Knowledge Poisoning Attacks During Retrieval-Augmented Generation [9.625480143413405]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上のための強力なアプローチとして登場した。
そのような攻撃の1つはPoisonedRAGで、注入された敵のテキストがモデルを操り、ターゲットの質問に対する攻撃長応答を生成する。
我々は,PoisonedRAG攻撃を緩和するために,新しい防御手法であるFilterRAGとML-FilterRAGを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:03:52Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - Traceback of Poisoning Attacks to Retrieval-Augmented Generation [10.19539347377776]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。
既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。
本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文 参考訳(メタデータ) (2025-04-30T14:10:02Z) - Practical Poisoning Attacks against Retrieval-Augmented Generation [9.320227105592917]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示しているが、幻覚や時代遅れの知識といった課題に直面している。
Retrieval-Augmented Generation (RAG)は、これらの問題を緩和するための最先端のアプローチとして登場した。
我々は、攻撃者が1つの有毒テキストだけを注入するRAGシステムに対する実用的な中毒攻撃であるCorruptRAGを提案する。
論文 参考訳(メタデータ) (2025-04-04T21:49:42Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。