論文の概要: RAG-Pull: Imperceptible Attacks on RAG Systems for Code Generation
- arxiv url: http://arxiv.org/abs/2510.11195v1
- Date: Mon, 13 Oct 2025 09:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.296694
- Title: RAG-Pull: Imperceptible Attacks on RAG Systems for Code Generation
- Title(参考訳): RAG-Pull:コード生成のためのRAGシステムに対する非受容攻撃
- Authors: Vasilije Stambolic, Aritra Dhar, Lukas Cavigelli,
- Abstract要約: 我々は,クエリや外部コードリポジトリに隠された文字を挿入する新たなブラックボックス攻撃であるRAG-Pullを開発する。
クエリとコードの摂動だけでは、検索を攻撃者が制御するスニペットにシフトできる一方で、クエリとターゲットの組み合わせによる摂動は、ほぼ完璧に成功する。
RAG-Pullの最小限の摂動は、モデルの安全性のアライメントを変更し、安全でないコードに対する嗜好を増大させ、LCMに対する新たな攻撃のクラスを開放する。
- 参考スコア(独自算出の注目度): 3.676794958453962
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) increases the reliability and trustworthiness of the LLM response and reduces hallucination by eliminating the need for model retraining. It does so by adding external data into the LLM's context. We develop a new class of black-box attack, RAG-Pull, that inserts hidden UTF characters into queries or external code repositories, redirecting retrieval toward malicious code, thereby breaking the models' safety alignment. We observe that query and code perturbations alone can shift retrieval toward attacker-controlled snippets, while combined query-and-target perturbations achieve near-perfect success. Once retrieved, these snippets introduce exploitable vulnerabilities such as remote code execution and SQL injection. RAG-Pull's minimal perturbations can alter the model's safety alignment and increase preference towards unsafe code, therefore opening up a new class of attacks on LLMs.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、LLM応答の信頼性と信頼性を高め、モデル再訓練の必要性を排除して幻覚を低減する。
LLMのコンテキストに外部データを追加することで実現している。
我々は,隠れたUTF文字をクエリや外部コードリポジトリに挿入し,検索を悪意のあるコードにリダイレクトすることで,モデルの安全性を損なう新しいタイプのブラックボックス攻撃であるRAG-Pullを開発した。
クエリとコードの摂動だけでは、検索を攻撃者が制御するスニペットに切り替えることができ、クエリとターゲットの組み合わせによる摂動は、ほぼ完璧に成功する。
一度検索すると、リモートコードの実行やSQLインジェクションのような悪用可能な脆弱性が導入される。
RAG-Pullの最小限の摂動は、モデルの安全性のアライメントを変更し、安全でないコードに対する嗜好を増大させるため、LSMに対する新たな攻撃のクラスを開放する。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.517076600304129]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。
本稿では,LLMパイプラインに検索拡張生成(RAG)とセルフランキングを統合するアプローチを提案する。
RAGは外部知識源を取り入れて出力の堅牢性を高める一方、自己整合性の概念にインスパイアされたセルフランキング技術は複数の推論経路を生成し、最も堅牢な検出器を選択するランクを生成する。
論文 参考訳(メタデータ) (2024-11-27T10:48:37Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Phantom: General Backdoor Attacks on Retrieval Augmented Language Generation [44.74112207662136]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を実施できる新たな攻撃法を提案する。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。