論文の概要: AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.12201v1
- Date: Tue, 14 Apr 2026 02:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.196658
- Title: AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning
- Title(参考訳): AdversarialCoT: LLM推論のための単一文書検索法
- Authors: Hongru Song, Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng,
- Abstract要約: Retrieval-augmented Generation (RAG) は、外部文書を取得することにより、大きな言語モデル(LLM)推論を強化する。
攻撃者が悪意のあるコンテンツを検索コーパスに注入するRAGにおける知識ベース中毒攻撃について検討した。
AdversarialCoTは、コーパス内の1つのドキュメントだけを毒化するクエリ固有の攻撃である。
- 参考スコア(独自算出の注目度): 115.3243260783674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language model (LLM) reasoning by retrieving external documents, but also opens up new attack surfaces. We study knowledge-base poisoning attacks in RAG, where an attacker injects malicious content into the retrieval corpus, which is then naturally surfaced by the retriever and consumed by the LLM during reasoning. Unlike prior work that floods the corpus with poisoned documents, we propose AdversarialCoT, a query-specific attack that poisons only a single document in the corpus. AdversarialCoT first extracts the target LLM's reasoning framework to guide the construction of an initial adversarial chain-of-thought (CoT). The adversarial document is iteratively refined through interactions with the LLM, progressively exposing and exploiting critical reasoning vulnerabilities. Experiments on benchmark LLMs show that a single adversarial document can significantly degrade reasoning accuracy, revealing subtle yet impactful weaknesses. This study exposes security risks in RAG systems and provides actionable insights for designing more robust LLM reasoning pipelines.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部文書を取得することによって、大きな言語モデル(LLM)推論を強化すると同時に、新たな攻撃面を開く。
本研究では,RAGにおけるナレッジベース中毒攻撃について検討し,攻撃者が検索コーパスに悪意のあるコンテンツを注入し,検索者が自然に表面化し,推論中にLSMが消費する。
有毒な文書でコーパスを浸水させる以前の作業とは異なり、我々は、コーパス内の1つの文書だけを毒化するクエリ固有の攻撃であるAdversarialCoTを提案する。
AdversarialCoT はまずターゲット LLM の推論フレームワークを抽出し、最初の逆チェーン・オブ・シント (CoT) の構築を導く。
敵の文書は、LSMとの相互作用を通じて反復的に洗練され、徐々に重要な推論脆弱性を暴露し、利用している。
ベンチマーク LLM の実験では、単一の敵文書が推論の精度を著しく低下させ、微妙だが影響の弱い弱点が明らかになる。
本研究では、RAGシステムのセキュリティリスクを明らかにし、より堅牢なLCM推論パイプラインを設計するための実用的な洞察を提供する。
関連論文リスト
- "Someone Hid It": Query-Agnostic Black-Box Attacks on LLM-Based Retrieval [44.49026453970601]
大規模言語モデル(LLM)は,検索システムにおいて有効なバックボーンとして機能している。
近年の研究では、LDMをベースとしたRetrievalは敵の攻撃に弱いことが示されている。
ゼロショットサロゲートLPMをベースとした転送可能なインジェクショントークンを生成する実用的なブラックボックス攻撃法を提案する。
論文 参考訳(メタデータ) (2026-01-30T22:28:04Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [28.06028279729382]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。