論文の概要: ImportSnare: Directed "Code Manual" Hijacking in Retrieval-Augmented Code Generation
- arxiv url: http://arxiv.org/abs/2509.07941v1
- Date: Tue, 09 Sep 2025 17:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.422286
- Title: ImportSnare: Directed "Code Manual" Hijacking in Retrieval-Augmented Code Generation
- Title(参考訳): ImportSnare: 検索拡張コード生成における"コードマニュアル"ハイジャック
- Authors: Kai Ye, Liangcai Su, Chenxiong Qian,
- Abstract要約: 我々はRetrieval-Augmented Code Generationにおける攻撃面の探索の先駆者である。
隠れた悪意のある依存関係を含む有毒なドキュメントがRACGを覆す方法を示す。
本稿では,2つのシナジスティック戦略を用いた新たな攻撃フレームワークであるImportSnareを提案する。
- 参考スコア(独自算出の注目度): 8.176905459241047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation has emerged as a pivotal capability of Large Language Models(LLMs), revolutionizing development efficiency for programmers of all skill levels. However, the complexity of data structures and algorithmic logic often results in functional deficiencies and security vulnerabilities in generated code, reducing it to a prototype requiring extensive manual debugging. While Retrieval-Augmented Generation (RAG) can enhance correctness and security by leveraging external code manuals, it simultaneously introduces new attack surfaces. In this paper, we pioneer the exploration of attack surfaces in Retrieval-Augmented Code Generation (RACG), focusing on malicious dependency hijacking. We demonstrate how poisoned documentation containing hidden malicious dependencies (e.g., matplotlib_safe) can subvert RACG, exploiting dual trust chains: LLM reliance on RAG and developers' blind trust in LLM suggestions. To construct poisoned documents, we propose ImportSnare, a novel attack framework employing two synergistic strategies: 1)Position-aware beam search optimizes hidden ranking sequences to elevate poisoned documents in retrieval results, and 2)Multilingual inductive suggestions generate jailbreaking sequences to manipulate LLMs into recommending malicious dependencies. Through extensive experiments across Python, Rust, and JavaScript, ImportSnare achieves significant attack success rates (over 50% for popular libraries such as matplotlib and seaborn) in general, and is also able to succeed even when the poisoning ratio is as low as 0.01%, targeting both custom and real-world malicious packages. Our findings reveal critical supply chain risks in LLM-powered development, highlighting inadequate security alignment for code generation tasks. To support future research, we will release the multilingual benchmark suite and datasets. The project homepage is https://importsnare.github.io.
- Abstract(参考訳): コード生成はLarge Language Models(LLM)の重要な機能として現れ、すべてのスキルレベルを持つプログラマの開発効率に革命をもたらした。
しかし、データ構造とアルゴリズムロジックの複雑さは、しばしば生成されたコードに機能上の欠陥とセキュリティ上の脆弱性をもたらすため、広範囲な手動デバッグを必要とするプロトタイプに還元される。
Retrieval-Augmented Generation (RAG)は、外部のコードマニュアルを活用することで、正確性とセキュリティを高めることができるが、同時に新たな攻撃面を導入する。
本稿では,悪意のある依存性のハイジャックに着目したRACG(Retrieval-Augmented Code Generation)における攻撃面探索の先駆者となる。
隠れた悪意のある依存関係を含む有毒なドキュメント(例: matplotlib_safe)がRACGを転用し、二重信頼チェーンを利用する方法を示す。
筆者らは, 有害文書構築のために, 1) 有害文書の検索において, 隠れたランキングシーケンスを最適化し, 2) 有害な依存関係を推奨するために, ジェイルブレーキングシーケンスを生成する多言語的帰納的提案, という2つの相乗的戦略を用いた新たな攻撃フレームワークであるImportSnareを提案する。
Python、Rust、JavaScriptにわたる広範な実験を通じて、ImportSnareは、一般的な攻撃成功率(maplotlibやSeabornといった一般的なライブラリの50%以上)を達成し、また、毒性比が0.01%以下であっても成功し、カスタムと現実の両方の悪意のあるパッケージをターゲットにしている。
この結果から,LLMによる開発において重要なサプライチェーンのリスクが明らかとなり,コード生成タスクのセキュリティアライメントが不十分であることが示唆された。
今後の研究をサポートするため、マルチ言語ベンチマークスイートとデータセットをリリースします。
プロジェクトのホームページはhttps://importsnare.github.io。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - An Exploratory Study on Fine-Tuning Large Language Models for Secure Code Generation [17.69409515806874]
脆弱性修正コミットのデータセット上での微調整済みのLLMがセキュアなコード生成を促進するかどうかを探索研究する。
オープンソースのリポジトリから、確認済みの脆弱性のコード修正を収集することで、セキュアなコード生成のための微調整データセットをクロールしました。
我々の調査によると、微調整のLLMは、C言語で6.4%、C++言語で5.4%、セキュアなコード生成を改善することができる。
論文 参考訳(メタデータ) (2024-08-17T02:51:27Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。